건국)코덕이 part2
전체 스터디
  • 전체보기
  • 질문
  • 숙제
내 스터디
  • 스터디에 참여해보세요!
다른 스터디
  • 건국)코덕이 part2
    • 전체보기
    • 질문
    • 숙제
    • 잡담
  • 파이썬 기초 스터디
  • 네이버 정복 파이썬 크롤링
  • 페이스북 만드는 웹개발
  • 데이터사이언스 12시간 입문기
  • 파이썬 구글 Sheet 연동
  • 엑셀서당 - 훈장님의 기초 엑셀 트레이닝
  • 고전게임을 만들며 배우는 코딩의 기초
  • 내 업무를 거의 자동화하는 방법
  • SQL 입문 4시간
  • QR 코드 프로그래밍
  • 비전공자 개발지식 총정리
  • 초고속 퍼포먼스 마케터
  • 왓챠 함께 만들기
  • 퍼블리셔 초고속 입문기
  • 한국형 커뮤니티 만들기
  • airbnb 프론트엔드 카피 프로젝트
  • 워드프레스로 쿠팡 만들기
Minah Lee 리더
데이터사이언스 12시간 입문기
온라인
이정수
12월 2일 20:34 · 건국)코덕이 part2

이해가 안되는 부분이 있어 질문올립니다!

질문1.

 Stage 3에서 feature engineering을 마친 데이터를 통해 만든 train 데이터 프레임으로 학습을 시킬때 왜 pclass는 포함을 시키지 않나요? 또 Age특성은 구간을 나누어 주었는데 Fare 값들은 구간을 나누지 않고 바로 사용하나요? 


질문2.

Stage3 온라인 북에서 재실행하면 valid set accuracy가 바뀌는 이유가 뭔가요? valid set와 train set는 고정값이기 때문에 컴퓨터가 만들어낸 모델도 고정값일텐데 그러면 accuracy도 바뀌지 않아야하는 거 아닌가요?

자세히 보기
최도근
12월 5일 17:43

정수님 안녕하세요~ 깊게 탐구하고 있는 모습 보기 좋아요ㅎㅎ

1-1. pclass는 중요한 특징일 확률이 높으며 포함하여 분석을 진행할 수 있습니다. 다만 공부초반이므로 학습 흐름상 제외하였습니다. 이후 수준을 높여 직접 추가하고 여러가지 방식으로 정확도를 높여보시면 됩니다(과제) 

1-2. Age처럼 Fare도 나누어 줄 수 있습니다. 그렇게 하는 것이 분석에 용이하다고 판단한다면 그렇게 진행하면 됩니다. 나누는게 좋을 수도 있고 나누지 않는게 좋지 않을 수도 있습니다. 이것은 오로지 분석자에게 달려있습니다. 실제로는 정교하게 나눈다면 아주 약간의 성능 향상이 기대되고, 그렇게 하지 못한다면 분석 모델의 성능은 떨어집니다. 공부과정에서는 범위나누는 아디이어를 배워보기 위해 간단하게 나마 Age를 대상으로 실습해보았습니다.

이제 막 처음 데이터분석을 공부하시는 분들을 위해 최대한 간략하게 실습을 해본것이며, 정수님처럼 주도적으로 의심하고 고민하면서 여러가지 방식으로 성능을 높여보길 기대합니다:) 

2. 두가지 상황에서 정확도가 바뀔 수 있습니다.
A) train, valid set이 새롭게 정의되었을 때(train set split 기능은 매실행시마다 셋을 랜덤으로 섞어 다시 정의합니다.)
B) 학습을 새롭게 진행하였을 때(데이터셋이 똑같아도 내부에서 생성되는 트리는 모양이 다를 수 있습니다. 어느정도 랜덤성에 기인하여 트리가 생성됩니다.)

따라서 두가지 실행시점마다 값이 변경될 수 있습니다.

좋아요 1
이정수
12월 26일 16:42

친절한 답변 감사합니다!!

좋아요 0
    참여자 데이터사이언스 12시간 입문기
    너무 고민말고 물어보세요!
    kakao 카카오톡 상담
    kakao 적성 테스트
    부담없이 채팅 상담하세요. 친절한 코알라가 대기중입니다:)