01wk-01: 캐글소개

Author

최규빈

Published

September 5, 2023

1. 강의영상

2. 타이타닉 경진대회 찾기

- 방법1: 검색을 통하여 접속하기

그림1: 타이타닉 경진대회 검색

- 방법2: 직접주소를 입력 https://www.kaggle.com/competitions/titanic

3. 데이터구경

- 데이터의 설명을 빠르게 파악하는 방법

  • 방법1: 변수위주로 Kaggle 홈페이지에서 파악
  • 방법2: 구글번역기 활용
  • 방법3: ChatGPT이용

- 제 생각

  • ChatGPT가 옳지 않은 소리를 할 떄도 있음. 하지만 처음에 데이터에 대한 개념을 빠르게 정리하고자 할 때 도움이 된다.
  • 변수이름이 약어로 된 경우가 많은데 이럴경우 GPT가 유용하다.

4. 메뉴소개

- 캐글 웹사이트의 메뉴탭 소개

  1. Overview (개요):
  • 경진대회 주최자가 경진대회의 배경, 목표, 데이터셋 설명 등을 설명
  1. Data (데이터):
  • 경진대회에 사용되는 데이터셋에 관한 정보를 찾을 수 있음.
  • 데이터의 구성, 변수 설명, 예시 데이터 등이 제공되며, 데이터를 이해하고 분석할 수 있는데 필요한 정보들이 여기에 포함됨.
  1. Code (코드):
  • 경진대회 참가자들이 코드를 공유하고 토론하는 공간.
  • 주로 주어진 문제에 대한 데이터 분석 및 모델링 코드, 데이터 전처리 방법, 모델 학습 등에 관련된 내용이 이곳에 포함됨.
  1. Discussion (토론):
  • 참가자들이 서로 의견을 교환하고 질문을 주고받을 수 있는 공간.
  • 데이터 분석 방법, 모델 구축 전략, 문제 해결 과정 등에 대한 토론이 이루어짐.
  1. Leaderboard (리더보드):
  • 경진대회 참가자들의 성능 평가 지표와 순위가 나열.
  • 참가자들의 모델 성능을 비교하고 경쟁 상황을 실시간으로 확인할 수 있음.
  1. Rules (규칙):
  • 참가자들이 따라야 할 규칙, 데이터 사용 방법, 평가 지표 등이 명시되어 있음.

- 체크하면 좋은 것들

  • Oveview: 평가지표(metric), 상(prize), 시간(timeline)
  • Rules: 평가지표(metric), 외부데이터 사용여부, 하루 최대 제출 수, 최종선택가능한 솔루션 수 (limit)

- 대회의 유형 (ref: https://github.com/PacktPublishing/The-Kaggle-Book)

  • Getting Started: 상을 제공하지 않음. 튜토리얼용. 매우 협력적인 환경.
  • Featured: 가장 일반적인 유형. 스폰서 회사의 비지니스 관련문제. 상금이 후함. 솔루션을 소개하는 자세한 리포트를 준비해야하고 발표할 것을 요구받을 수 있음.
  • Analytics: 질적 평가. 참가자의 PPT를 제출로 받음.