1) 사전작업
실제 문제가 해결될 수 있는지?
준비한 데이터가 의미가 있는지?
효용성이 있는지?
2) Data Preparation
다양한 내외부의 소스 수집
Data
-> Data Preprocessing / Feature Enginnering
-> Feature
-> Learning
Data Preparatin Pipeline
Data -> Data Acquisition(데이터 수집,획득) -> Data Preprocessing(처리) -> Feature Engineering(가공, 도메인) -> Feauture
머신러닝 프로젝트 성공의 열쇠
대다수의 Data Preparation 과 Feature Engineering 기법은 도메인에 많은 영향을 받는다 (Domain Specific)
- Data Preprocessing
도메인에 대한 이해도가 적더라도 컴퓨터가 좀 더 잘 받아들일 수 있는 형태로 Data를 가공하는 작업
세부 기법 : Vectorization(수학적으로 표현), Normalization(표준화), Handling Missing Values(결측값 처리)
- Feature Engineering
도메인의 지식이 요구됨, 머신러닝프로젝트에 최적화된 단계, 러닝(Learning)을 잘 할 수있도록 하는 요소, 도메인 지식을 활용하여 머신러닝 알고리즘이 학습을 잘 진행할 수 있도록 Preprocessed Data를 변환하는 작업
type of Feature
1) Numerical : 숫자
2) Categorical : 범주
'AI' 카테고리의 다른 글
[Tensorflow 자격증 공부] 선형함수와 오차 (0) | 2022.01.06 |
---|---|
[Tensorflow 자격증 공부] 스케일링/원핫인코딩/relu/loss함수/compile/체크포인트 (0) | 2022.01.05 |
[Tensorflow 자격증 공부] Fully Connected Layer (Dense Layer) (0) | 2022.01.04 |
[AI] 머신러닝의 개념과 요소 (0) | 2022.01.04 |
[AI] 머신러닝을 위한 모델구축 및 평가과정 (0) | 2021.12.14 |