쑤쑤_CS 기록장

캐글 타이타닉 - 전처리 과정 설명, 데이터 이용법 본문

IT 지식 기록/데이터마이닝

캐글 타이타닉 - 전처리 과정 설명, 데이터 이용법

(╹◡╹)_ 2019. 5. 30. 04:50
728x90

이전 글 타이타닉 Gradient Descent 알고리즘 관련 꿀팁 사이트 대 방출~~ 이었습니다.

 

 

 

이번 글은 제가 그 코드들을 바탕으로 전처리 진행 한 방법입니다.

전처리가 잘 이루어지면, 이후 모델 학습 및 분석 진행 시, 알고리즘의 cost가 낮다고 합니다.

 

어떤 사람은 1이 넘고, 어떤 사람은 0.4보다 작은 cost 값이 나온다는 큰 차이 ~.~

좋은 전처리 법으로 cost를 낮추고 효율적으로 진행해보아요~~

 


 

- 관련 없는 PassengerId 는 삭제한다.

 

- 이름이 길기 때문에 ‘성’ 만을 Name 배열에 넣어 이용한다.

 

-  Name을 Age의 missing value 값을 계산하는데 이용한다.

(성인 Name이 같으면 가족일 가능성이 크다. 따라서 같은 이름인 두 사람의 나이를 합해서 나눈, 즉 두 사람의 평균값을 얻어낸다.)

 

- 빈도수에 따라 attribute 값들을 수치로 변환한다.

(모두 numeric values로 바꿈) 코드의replacement 부분

 

- 특정 값에 치우치지 않기 위해, 모든 값들을 scale down한다.

(StandardScaler 이용)

 

- Nan에는 주로 평균을 이용해 데이터를 채워 넣는다.

 

- Train data 에는 있고, Test data에는 없는 Parch의 값 9 도 replacement 부분에 추가해준다.

 

- 모든 전처리 과정을 거치면 다음과 같은 결과가 나온다.

(사용하는 attribute : Pclass, Name, Sex, Age, SibSp, Parch, Fare, Cabin, Embarked)

 

 

 

코드 구현은 다음 글에 올리겠습니다.

728x90
Comments