캐글 타이타닉 - 전처리 과정 설명, 데이터 이용법

250x250

Recent Posts

Recent Comments

관리 메뉴

쑤쑤_CS 기록장

IT 지식 기록/데이터마이닝

(╹◡╹)_ 2019. 5. 30. 04:50

728x90

이전 글 타이타닉 Gradient Descent 알고리즘 관련 꿀팁 사이트 대 방출~~ 이었습니다.

이번 글은 제가 그 코드들을 바탕으로 전처리 진행 한 방법입니다.

전처리가 잘 이루어지면, 이후 모델 학습 및 분석 진행 시, 알고리즘의 cost가 낮다고 합니다.

어떤 사람은 1이 넘고, 어떤 사람은 0.4보다 작은 cost 값이 나온다는 큰 차이 ~.~

좋은 전처리 법으로 cost를 낮추고 효율적으로 진행해보아요~~

- 관련 없는 PassengerId 는 삭제한다.

- 이름이 길기 때문에 ‘성’ 만을 Name 배열에 넣어 이용한다.

- Name을 Age의 missing value 값을 계산하는데 이용한다.

(성인 Name이 같으면 가족일 가능성이 크다. 따라서 같은 이름인 두 사람의 나이를 합해서 나눈, 즉 두 사람의 평균값을 얻어낸다.)

- 빈도수에 따라 attribute 값들을 수치로 변환한다.

(모두 numeric values로 바꿈) 코드의replacement 부분

- 특정 값에 치우치지 않기 위해, 모든 값들을 scale down한다.

(StandardScaler 이용)

- Nan에는 주로 평균을 이용해 데이터를 채워 넣는다.

- Train data 에는 있고, Test data에는 없는 Parch의 값 9 도 replacement 부분에 추가해준다.

- 모든 전처리 과정을 거치면 다음과 같은 결과가 나온다.

(사용하는 attribute : Pclass, Name, Sex, Age, SibSp, Parch, Fare, Cabin, Embarked)

코드 구현은 다음 글에 올리겠습니다.

728x90

캐글 타이타닉 - Gradient Descent 소스 코드_파이썬 (0)	2019.05.30
캐글 - 타이타닉titanic 유용한 사이트 정리 요약 (0)	2019.05.30

'IT 지식 기록/데이터마이닝' Related Articles

Comments