01wk-01: 캐글소개
1. 강의영상
2. 타이타닉 경진대회 찾기
-
방법1: 검색을 통하여 접속하기
-
방법2: 직접주소를 입력 https://www.kaggle.com/competitions/titanic
3. 데이터구경
-
데이터의 설명을 빠르게 파악하는 방법
- 방법1: 변수위주로 Kaggle 홈페이지에서 파악
- 방법2: 구글번역기 활용
- 방법3: ChatGPT이용
-
제 생각
- ChatGPT가 옳지 않은 소리를 할 떄도 있음. 하지만 처음에 데이터에 대한 개념을 빠르게 정리하고자 할 때 도움이 된다.
- 변수이름이 약어로 된 경우가 많은데 이럴경우 GPT가 유용하다.
4. 메뉴소개
-
캐글 웹사이트의 메뉴탭 소개
- Overview (개요):
- 경진대회 주최자가 경진대회의 배경, 목표, 데이터셋 설명 등을 설명
- Data (데이터):
- 경진대회에 사용되는 데이터셋에 관한 정보를 찾을 수 있음.
- 데이터의 구성, 변수 설명, 예시 데이터 등이 제공되며, 데이터를 이해하고 분석할 수 있는데 필요한 정보들이 여기에 포함됨.
- Code (코드):
- 경진대회 참가자들이 코드를 공유하고 토론하는 공간.
- 주로 주어진 문제에 대한 데이터 분석 및 모델링 코드, 데이터 전처리 방법, 모델 학습 등에 관련된 내용이 이곳에 포함됨.
- Discussion (토론):
- 참가자들이 서로 의견을 교환하고 질문을 주고받을 수 있는 공간.
- 데이터 분석 방법, 모델 구축 전략, 문제 해결 과정 등에 대한 토론이 이루어짐.
- Leaderboard (리더보드):
- 경진대회 참가자들의 성능 평가 지표와 순위가 나열.
- 참가자들의 모델 성능을 비교하고 경쟁 상황을 실시간으로 확인할 수 있음.
- Rules (규칙):
- 참가자들이 따라야 할 규칙, 데이터 사용 방법, 평가 지표 등이 명시되어 있음.
-
체크하면 좋은 것들
- Oveview: 평가지표(metric), 상(prize), 시간(timeline)
- Rules: 평가지표(metric), 외부데이터 사용여부, 하루 최대 제출 수, 최종선택가능한 솔루션 수 (limit)
-
대회의 유형 (ref: https://github.com/PacktPublishing/The-Kaggle-Book)
- Getting Started: 상을 제공하지 않음. 튜토리얼용. 매우 협력적인 환경.
- Featured: 가장 일반적인 유형. 스폰서 회사의 비지니스 관련문제. 상금이 후함. 솔루션을 소개하는 자세한 리포트를 준비해야하고 발표할 것을 요구받을 수 있음.
- Analytics: 질적 평가. 참가자의 PPT를 제출로 받음.