쑤쑤_CS 기록장
캐글 타이타닉 - 전처리 과정 설명, 데이터 이용법 본문
이전 글 타이타닉 Gradient Descent 알고리즘 관련 꿀팁 사이트 대 방출~~ 이었습니다.
이번 글은 제가 그 코드들을 바탕으로 전처리 진행 한 방법입니다.
전처리가 잘 이루어지면, 이후 모델 학습 및 분석 진행 시, 알고리즘의 cost가 낮다고 합니다.
어떤 사람은 1이 넘고, 어떤 사람은 0.4보다 작은 cost 값이 나온다는 큰 차이 ~.~
좋은 전처리 법으로 cost를 낮추고 효율적으로 진행해보아요~~
- 관련 없는 PassengerId 는 삭제한다.
- 이름이 길기 때문에 ‘성’ 만을 Name 배열에 넣어 이용한다.
- Name을 Age의 missing value 값을 계산하는데 이용한다.
(성인 Name이 같으면 가족일 가능성이 크다. 따라서 같은 이름인 두 사람의 나이를 합해서 나눈, 즉 두 사람의 평균값을 얻어낸다.)
- 빈도수에 따라 attribute 값들을 수치로 변환한다.
(모두 numeric values로 바꿈) 코드의replacement 부분
- 특정 값에 치우치지 않기 위해, 모든 값들을 scale down한다.
(StandardScaler 이용)
- Nan에는 주로 평균을 이용해 데이터를 채워 넣는다.
- Train data 에는 있고, Test data에는 없는 Parch의 값 9 도 replacement 부분에 추가해준다.
- 모든 전처리 과정을 거치면 다음과 같은 결과가 나온다.
(사용하는 attribute : Pclass, Name, Sex, Age, SibSp, Parch, Fare, Cabin, Embarked)
코드 구현은 다음 글에 올리겠습니다.
'IT 지식 기록 > 데이터마이닝' 카테고리의 다른 글
캐글 타이타닉 - Gradient Descent 소스 코드_파이썬 (0) | 2019.05.30 |
---|---|
캐글 - 타이타닉titanic 유용한 사이트 정리 요약 (0) | 2019.05.30 |