250x250
Recent Posts
Recent Comments
목록캐글타이타닉 (1)
쑤쑤_CS 기록장
캐글 타이타닉 - 전처리 과정 설명, 데이터 이용법
이전 글 타이타닉 Gradient Descent 알고리즘 관련 꿀팁 사이트 대 방출~~ 이었습니다. 이번 글은 제가 그 코드들을 바탕으로 전처리 진행 한 방법입니다. 전처리가 잘 이루어지면, 이후 모델 학습 및 분석 진행 시, 알고리즘의 cost가 낮다고 합니다. 어떤 사람은 1이 넘고, 어떤 사람은 0.4보다 작은 cost 값이 나온다는 큰 차이 ~.~ 좋은 전처리 법으로 cost를 낮추고 효율적으로 진행해보아요~~ - 관련 없는 PassengerId 는 삭제한다. - 이름이 길기 때문에 ‘성’ 만을 Name 배열에 넣어 이용한다. - Name을 Age의 missing value 값을 계산하는데 이용한다. (성인 Name이 같으면 가족일 가능성이 크다. 따라서 같은 이름인 두 사람의 나이를 합해서 나눈..
IT 지식 기록/데이터마이닝
2019. 5. 30. 04:50