목록data (2)
쑤쑤_CS 기록장
이전 글 타이타닉 Gradient Descent 알고리즘 관련 꿀팁 사이트 대 방출~~ 이었습니다. 이번 글은 제가 그 코드들을 바탕으로 전처리 진행 한 방법입니다. 전처리가 잘 이루어지면, 이후 모델 학습 및 분석 진행 시, 알고리즘의 cost가 낮다고 합니다. 어떤 사람은 1이 넘고, 어떤 사람은 0.4보다 작은 cost 값이 나온다는 큰 차이 ~.~ 좋은 전처리 법으로 cost를 낮추고 효율적으로 진행해보아요~~ - 관련 없는 PassengerId 는 삭제한다. - 이름이 길기 때문에 ‘성’ 만을 Name 배열에 넣어 이용한다. - Name을 Age의 missing value 값을 계산하는데 이용한다. (성인 Name이 같으면 가족일 가능성이 크다. 따라서 같은 이름인 두 사람의 나이를 합해서 나눈..
안녕하세요! 저는 이번에 데이터 마이닝을 공부하며 캐글의 타이타닉 경선에 참가하였습니다. 이때 정말 많은 구글링을 진행했는데 그 중 가장 유익했던 사이트 공유하겠습니다. https://github.com/ramansah/kaggle-titanic/blob/master/Analysis.ipynb ramansah/kaggle-titanic Titanic assignment on Kaggle competition. Contribute to ramansah/kaggle-titanic development by creating an account on GitHub. github.com 이분 정말 똑똑이....ㅎㅎㅎㅎㅎ 전처리에서 많은 부분을 참고하였습니다! https://doorbw.tistory.com/cate..