본문 바로가기

전체 글

(203)
[Python] 네이버 이미지 크롤링하기 크롤링이란? 웹페이지에 있는 정보를 내가 원하는 것만 뽑아서 수집하는 것이다. 주로 크롤링으로 많이 하는 것들은 이미지 파일들이다. 이번에는 파이썬을 사용하여 이미지를 크롤링하고, 크롤링한 이미지 파일들을 opencv를 이용해서 원하는 포맷으로 편집까지 해보려한다. 크롤링에 많이 사용하는 것들은 뷰티풀숲(Beautiful Soup) 이다. 하지만 정적인 콘텐츠가 아니고, 동적인 콘텐츠의 경우 실제로 웹 창이 열려야 이미지 소스들이 그제서야(?) 웹페이지에 다운이 되는 경우가 많이 있다. 그래서 셀레니움(Selenium)을 사용한다. 1. 필요한 모듈을 설치한다. !pip install bs4 !pip install selenium !pip install opencv-python 2. 필요한 모듈을 imp..
[AI] 머신러닝을 위한 데이터 준비 1) 사전작업 실제 문제가 해결될 수 있는지? 준비한 데이터가 의미가 있는지? 효용성이 있는지? 2) Data Preparation 다양한 내외부의 소스 수집 Data -> Data Preprocessing / Feature Enginnering -> Feature -> Learning Data Preparatin Pipeline Data -> Data Acquisition(데이터 수집,획득) -> Data Preprocessing(처리) -> Feature Engineering(가공, 도메인) -> Feauture 머신러닝 프로젝트 성공의 열쇠 대다수의 Data Preparation 과 Feature Engineering 기법은 도메인에 많은 영향을 받는다 (Domain Specific) - Data ..
[AI] 머신러닝의 개념과 요소 Data란? 현실세계의 어떤 현상을 / 관찰하여 / 기록한 것 ex) 심장데이터 심장상태를 관찰(청진기)하여 기록한것(심박수) 데이터의 특징 1) Facts : 객관화된 자료 2) No meaning : 의미가 없다. 주변의 context 가 필요 3) Representation of real world : 자연어 처리 ㅇ Feature : 요인, 변수란? 데이터를 컴퓨터가 이해할 수 있도록 수치(numeric) 또는 디지털(digitized)로 표현한 것 ex) 남자/여자 --> 0/1 ex) Titanic Feature 타이타닉호 티켓을 디지털 형태로 컴퓨터가 이해하도록 표현한다. Synonym of Feature (동의/유사어) - 독립변수(Independent Variable) - 설명변수(Exp..