Kaggle/House Prices

Housing Data Exploratory Analysis by AiO (With R)

Hoonki90 2016. 11. 13. 00:38
cat_var <- names(train)[which(sapply(train, is.character))] # train의 변수 중 character변수의 이름을 할당.
cat_car <- c(cat_var, 'BedroomAbvGr', 'HalfBath', ' KitchenAbvGr','BsmtFullBath', 'BsmtHalfBath', 'MSSubClass')
numeric_var <- names(train)[which(sapply(train, is.numeric))] # train의 변수 중 numeric변수의 이름을 할당.

Structure of the data

주택 데이터셋은 1460개의 행과 종속변수인 Sale Price를 포함해 81개의 열을 가진다.

Summarize the missing values in the data.

데이터셋의 첫 5행을 보는것은 결측치가 있는 열이 있는지를 보여준다. (번역가의 생각으론 첫 5행 그리고 마지막 5행을 보는것은 데이터가 제대로 불러와 졌는지를 보기위함이다. 그러나 이 말도 뭐 아주 틀린말은 아니다. 사실 결측치가 있는 열을 보기 위해서는 summary 함수가 더 올바른 방법일 것이다.) 범주형 변수들중 가장 많은 결측치를 가진 것은 Alley, FirePlaceQu, PoolQC, Fence, 그리고 MiscFeature 이다.

  • Alley: 골목길 접근성 종류를 나타냄.
  • FirePlaceQu: 벽난로의 품질
  • PoolQC: 수영장의 품질.
  • Fence: 울타리의 품질.
  • MiscFeature: Miscellaneous features는 다른 카테고리에서 다루어지지 않은 변수들을 말한다.

결측값들은 주택의 대다수가 골목길 접근성이 없고, 수영장이 없고, 울타리가 없고, 엘레베이터도 없다는 것을 나타낸다. 2번째 차고(집에 달려있는 차고외의 것), 오두막, 또는 테니스코트는 MiscFeature로 다뤘다.

수치형변수들은 결측값이 범주형만큼 많이 있진 않지만, 여전히 몇몇개가 존재한다. LotFrontage 변수에서 259개의 결측치, MasVnrArea 에서 8개의 결측치 그리고 GarageYrBlt에서 81개의 결측치들이 있다.

  • LotFrontage: 집까지 연결된 거리(street)의 발자국거리(Linear feet)
  • GarageYrBlt: 차고가 지어진 년도Year garage was built
  • MasVnrArea: 평방 Masonry veener 공간(외부벽돌이 쌓여진 공간, 주로 집의 모양새(appearance)를 위한 것이라고 함.) 

구글링 하여 찾은 Masonry Veener의 정의: Veneer masonry는 집을 건축하거나 리모델링하는데 많이 선택되는 것이다. 왜냐하면 이것은 훨씬 더 싸고 절연효과를 주면서 붉은벽돌 혹은 석조의 외형을 살린다. 이 공법은 기존목조구조에 추가하여 사용되어 질 수 있으며 콘크리트벽돌 벽을 대체할 수 있다.

Brick veeners 는 집의 건축에 반드시 필요한 부분은 아니나 더 나은 절연효과를 가져오면서, 벽의 외관을 유지하기위해 사용된다. 이 공법은 주로 단일 벽돌층만을 갖는 경향이 있다.

colSums(sapply(train, is.na))
colSums(sapply(train[,.SD, .SDcols = cat_var], is.na)) # .SD로 서브셋 불러오기
colSums(sapply(train[,.SD, .SDcols = numeric_var], is.na))
리모델링된 집들의 숫자에 대해서 인사이트를 좀 얻어 보자. 데이터 설명에 따르면, YearBuilt의 날짜가 YearRemodAdd의 날짜와 다르다면, 그 집은 리모델링 된것이다. 이 두 열을 비교해보면 696개의 집들이 리모델링 되었고 764개의 집들이 리모델링 되지 않았다

#with =FALSE는 문자열을 컬럼 이름으로 취급한다.
sum(train[,'YearRemodAdd', with = FALSE] != train[,'YearBuilt', with = FALSE]) 
## [1] 696
cat('Percentage of houses remodeled',sum(train[,'YearRemodAdd', with = FALSE] != train[,'YearBuilt', with = FALSE])/ dim(train)[1])
## Percentage of houses remodeled 0.4767123
train %>% select(YearBuilt, YearRemodAdd) %>%    mutate(Remodeled = as.integer(YearBuilt != YearRemodAdd)) %>% ggplot(aes(x= factor(x = Remodeled, labels = c( 'No','Yes')))) + geom_bar() + xlab('Remodeled') + theme_light()

Summarize the numeric values and the structure of the data.

summary(train[,.SD, .SDcols =numeric_var])
cat('Train has', dim(train)[1], 'rows and', dim(train)[2], 'columns.')
## Train has 1460 rows and 81 columns.
cat('Test has', dim(test)[1], 'rows and', dim(test)[2], ' columns.')
## Test has 1459 rows and 80  columns.
# train셋에서 결측데이터의 비율.
sum(is.na(train)) / (nrow(train) *ncol(train))
## [1] 0.05889565
# test셋에서 결측데이터의 비율.
sum(is.na(test)) / (nrow(test) * ncol(test))
## [1] 0.05997258
# 중복된 행 데이터 확인.

cat("The number of duplicated rows are", nrow(train) - nrow(unique(train)))
## The number of duplicated rows are 0
####문자를 팩터형으로 바꾸기

train[,(cat_var) := lapply(.SD, as.factor), .SDcols = cat_var]
train_cat <- train[,.SD, .SDcols = cat_var]
train_cont <- train[,.SD,.SDcols = numeric_var]

plotHist <- function(data_in, i) {
  data <- data.frame(x=data_in[[i]])
  p <- ggplot(data=data, aes(x=factor(x))) + stat_count() + xlab(colnames(data_in)[i]) + theme_light() + 
    theme(axis.text.x = element_text(angle = 90, hjust =1))
  return (p)

doPlots <- function(data_in, fun, ii, ncol=3) {
  pp <- list()
  for (i in ii) {
    p <- fun(data_in=data_in, i=i)
    pp <- c(pp, list(p))
  do.call("grid.arrange", c(pp, ncol=ncol))

plotDen <- function(data_in, i){
  data <- data.frame(x=data_in[[i]], SalePrice = data_in$SalePrice)
  p <- ggplot(data= data) + geom_line(aes(x = x), stat = 'density', size = 1,alpha = 1.0) +
    xlab(paste0((colnames(data_in)[i]), '\n', 'Skewness: ',round(skewness(data_in[[i]], na.rm = TRUE), 2))) + theme_light() 

Barplots for the categorical features

밑에 있는 막대 그래프는 데이터에 대한 더 많은 인사이트를 제공한다. MSZoning : 막대그래프는 대부분의 집들이 저밀도 거주지역과 중밀도 거주지역에 있다는것을 나타낸다.

집으로 연결된 도로의 종류는 포장도로인 경우가 많고 집들은 골목을 가지고 있지 않다.(아마 집들이 많이 떨어져 있다는 말 같다.)

  • Landcontour: 평평한 땅에 집들이 지어졌다.
  • Utilities: 거의 모든 집들은공동시설을 갖추었다. (E,G,W, & S)
  • LandSlope: 대부분의 땅들은 완만한 경사를 가진다.
doPlots(train_cat, fun = plotHist, ii = 1:4, ncol = 2)

doPlots(train_cat, fun = plotHist, ii  = 4:8, ncol = 2)

doPlots(train_cat, fun = plotHist, ii = 8:12, ncol = 2)

doPlots(train_cat, fun = plotHist, ii = 13:18, ncol = 2)

doPlots(train_cat, fun = plotHist, ii = 18:22, ncol = 2)

급격한 경사를 가진 집들은 Clear Creek과 Timberland에 위치해 있다. 적당한 경사를 가진 집들은 다른 동네에 있다. Clear Creek과 Timberland 주위가 높은 경사를 가지고 있는것 처럼 보인다.

train %>% select(LandSlope, Neighborhood, SalePrice) %>% filter(LandSlope == c('Sev', 'Mod')) %>% arrange(Neighborhood) %>% group_by(Neighborhood, LandSlope) %>% summarize(Count = n()) %>% ggplot(aes(Neighborhood, Count)) + geom_bar(aes(fill = LandSlope), position = 'dodge', stat = 'identity') + theme_light() +theme(axis.text.x = element_text(angle = 90, hjust =1))

지역들과 Sale Price 간에 막대그래프를 그리면 BrookSide와 South & West of Iowa State University가 값싼 집들을 가지고 있는 것을 볼수 있다. 반면 Northridge와 Northridge Heights는 가격의 관점에서는 이상치를 가진 부자동네이다. 

train %>% select(Neighborhood, SalePrice) %>% ggplot(aes(factor(Neighborhood), SalePrice)) + geom_boxplot() + theme(axis.text.x = element_text(angle = 90, hjust =1)) + xlab('Neighborhoods')

Density plots for numeric variables.

변수에 대한 밀도 그래프는 변수들이 왜도가 있는지를 나타낸다. YearBuilt에 대한 밀도함수는 데이터셋이 새로지은 집과 오래된 집이 섞여 있다는걸 보여준다. 이것은 아마도 주택 위기 때문에, 최근 주택수의 하락세을 보여준다. 

doPlots(train_cont, fun = plotDen, ii = 2:6, ncol = 2)
doPlots(train_cont, fun = plotDen, ii = 7:12, ncol = 2)
doPlots(train_cont, fun = plotDen, ii = 13:17, ncol = 2)

아래 히스토그램은 대부분의 집이 2개의 full bath와 0개의 half baths 그리고 평균 3개의 bedrooms를 가진다는 것을 보았다. 

doPlots(train_cont, fun = plotHist, ii = 18:23, ncol = 2)

Explore the correlation

correlations <- cor(na.omit(train_cont[,-1, with = FALSE]))

# correlations
row_indic <- apply(correlations, 1, function(x) sum(x > 0.3 | x < -0.3) > 1)

correlations<- correlations[row_indic ,row_indic ]
corrplot(correlations, method="square")

Plot scatter plot for variables that have high correlation.

아래 상관계수 행렬은 housing price와 양이고 강하게 상관있는 몇몇 변수가 있다는걸 보여준다.

The correlation matrix below shows that there are several variables that are strongly and positively correlated with housing price.

높은 양의 상관관계의 변수들:

  • OverallQual
  • YearBuilt
  • YearRemodAdd
  • MasvnrArea
  • BsmtFinSF1
  • TotalBsmtSF
  • 1stFlrSF
  • GrLiveArea
  • FullBath
  • TotRmsAbvGrd
  • FirePlaces
  • GarageYrBlt
  • GarageCars
  • GarageArea
  • WoodDeskSF
  • OpenPorchSF

enclosed porches의 숫자와 year built는 음의 상관관계를 가진다. 잠재적인 집 구매자들이 enclosed porch를 싫어하고 최근 주택건설자들이 enclosed porch를 덜 짓는 것처럼 보인다.  이것은 또한 SalsPrice와 음의 상관관계를 갖는 데 이 또한 말이 된다.

OverallCond 와 SalePrice 간에 약한 음의 상관관계를 가지고 있다. Yearbuilt 와 OverallCond 사이에는 강한 음의 상관관계가 있다. 이것은 최근 지어진 집들이 전반적으로 더 나쁜 상태인 것으로 보인다.

train %>% select(OverallCond, YearBuilt) %>% ggplot(aes(factor(OverallCond),YearBuilt)) + geom_boxplot() + xlab('Overall Condition')

plotCorr <- function(data_in, i){
  data <- data.frame(x = data_in[[i]], SalePrice = data_in$SalePrice)
  p <- ggplot(data, aes(x = x, y = SalePrice)) + geom_point(shape = 1, na.rm = TRUE) + geom_smooth(method = lm ) + xlab(paste0(colnames(data_in)[i], '\n', 'R-Squared: ', round(cor(data_in[[i]], data$SalePrice, use = 'complete.obs'), 2))) + theme_light()

highcorr <- c(names(correlations[,'SalePrice'])[which(correlations[,'SalePrice'] > 0.5)], names(correlations[,'SalePrice'])[which(correlations[,'SalePrice'] < -0.2)])
data_corr <- train[,highcorr, with = FALSE]

doPlots(data_corr, fun = plotCorr, ii = 1:6)

doPlots(data_corr, fun = plotCorr, ii = 6:11)
종속변수 SalePrice 에 대한 히스토그램은 왜도를 보인다. 따라서 로그를 취하여 정규화 시켜보자.

ggplot(train, aes(x=SalePrice)) + geom_histogram(col = 'white') + theme_light() +scale_x_continuous(labels = comma)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

##    SalePrice     
##  Min.   : 34900  
##  1st Qu.:129975  
##  Median :163000  
##  Mean   :180921  
##  3rd Qu.:214000  
##  Max.   :755000
# 정규분포화 시키기
ggplot(train, aes(x=log(SalePrice+1))) + geom_histogram(col = 'white') + theme_light()
