본문 바로가기

AI

[AI] 머신러닝을 위한 데이터 준비

1) 사전작업

실제 문제가 해결될 수 있는지?

준비한 데이터가 의미가 있는지?

효용성이 있는지?

 

2) Data Preparation 

다양한 내외부의 소스 수집

Data 

-> Data Preprocessing / Feature Enginnering 

-> Feature

-> Learning 

 

Data Preparatin Pipeline

Data -> Data Acquisition(데이터 수집,획득) -> Data Preprocessing(처리) -> Feature Engineering(가공, 도메인) -> Feauture

 

 

 

머신러닝 프로젝트 성공의 열쇠

대다수의 Data Preparation 과 Feature Engineering 기법은 도메인에 많은 영향을 받는다 (Domain Specific)

 

- Data Preprocessing 

도메인에 대한 이해도가 적더라도 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업

세부 기법 : Vectorization(수학적으로 표현), Normalization(표준화), Handling Missing Values(결측값 처리)

 

- Feature Engineering

도메인의 지식이 요구됨, 머신러닝프로젝트에 최적화된 단계, 러닝(Learning)을 잘 할 수있도록 하는 요소, 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed Data를 변환하는 작업

 

type of Feature

1) Numerical : 숫자

2) Categorical : 범주