쳉지로그

[패스트캠퍼스 ML300] Intro. Ch02 ~ 04 본문

머신러닝/패스트캠퍼스 ML300

[패스트캠퍼스 ML300] Intro. Ch02 ~ 04

쳉지 2021. 4. 14. 04:49

Kaggle(kaggle.com)

  • A platform for predictive modeling competitions
  • 데이터 분석 및 머신 러닝에 대한 학습 플랫폼

kaggle API

  • Profile ⇒ Account ⇒ API
  • "Create New API Token" click! ⇒ json file download
  • Expire click 시 해당 token 더 이상 사용 불가
  • pip install kaggle

 

<How to kaggle data download?>


데이터셋의 목적과 활용

  • 연구, 공공데이터, 경연, 학술 및 교육, 사업 및 서비스

 

데이터의 종류

1. Tabular

  • 표 형태의 데이터
  • 머신 러닝에서 가장 많이 활용되는 형태

2. Image

  • Still Image(H * W * C): 3차원 Matrix
  • Video (H * W * C * T): 4차원 Matrix
  •  

3. Sequential

  • 순서가 있는 데이터(시간 개념은 없음)
    1. Time-Series: 시간 개념 O 동시간 간격
    2. Sound: Time-Series의 일종

데이터 사이언스

 

데이터 분석의 일반적인 순서

1. Data Processing

  • 주로 Pandas 라이브러리 사용

2. EDA(Exploratory Data Analysis)

  • 탐색적 데이터 분석 방법
  • 데이터 훑어보기

3. Feature Engineering

  • 머신 러닝 모델이 기계적으로 잘 동작 하게끔 도와주는 것

4. Machine Learning

  • Training & Test 입출력

 

인공지능 vs 머신 러닝 vs 딥러닝

 

  1. Rule-Based : If - Then - Else
  2. Data-Driven → Machine Learning

     딥러닝 = 굉장히 복잡한 Artificial Neural-Network(인공 신경망)

 

'머신러닝 > 패스트캠퍼스 ML300' 카테고리의 다른 글

[패스트캠퍼스 ML300] Intro. Ch01  (0) 2021.04.14
Comments