머신 러닝 학습 과정 (1/2) 1. 문제이해 문제를 풀 때 데이터와 가능한 작업량을 미리 분석하는 것 문제의 정의 데이터 수집과정 데이터 수집의 시간 전처리의 유무 2. 데이터셋 정의 및 획득 ETL 프로세스 ETL( Extract, transform, load)은 단어대로 추출, 변환, 적재를 하는 프로세스 빅데이터를 분석하기 위해서 필요한 전처리 과정 데이터를 추출 후 분석할수 있게 변환하여 적재하는 과정 전통적인 ETL 다이어그램 SciPy 및 pandas 를 사용한 데이터셋 로드 및 탐색 분석 예제 코드 : https://github.com/Limdh3325/Machine-Learning-for-Developers/blob/master/Chapter02/Code/Dataset_IO.ipynb 3. 피처 엔지니어링 가공전 데이터를 가져와서 모델이 일반화 하기 쉬운 형태로 변환하는 과정 예측 모델의 정밀도를 향상시키기 위해 학습용 원시 데이터를 기반으로 피처를 변환, 추출, 선택하거나 새로운 피처를 생성하는 작업 누릭된 데이터 다루기 불완전한 데이터셋이 있을때 누락된 부분은 모델에 도움이 되지 않는다. 따라 결측치를 처리하는 방법이 필요함 기본적으로 아래의 방법을 행함 해당 결측치행을 제거하여 학습에 사용하지 않는것 데이터의 평균을 사용하여 결측치에 넣는것 해당 열의 중앙값 사용 해당 열의 빈번한 값을 사용 하지만 위의 방법으로 학습이 안될 가능성이 있기 때문에 적중률을 높이기 위해 좀더 고급기술을 사용한다. 누락된 값(결측치)에 대한 상세한 처리 방법은 결측치 처리 블로그 에서 확인해주시기 바랍니다. 원핫 인코딩 (One-Hot Encoding) 하나의 값만 True(1)이고 나머지는 모두 False(0)인 인코딩 ...
제가 경험한 것을 올린 블로그입니다 친절한 설명은 없습니다 [개인 github : https://github.com/Limdh3325]