상세정보
머신러닝 데이터 전처리 입문
- 저자
- 아다치 하루카
- 출판사
- 로드북
- 출판일
- 2020-09-21
- 등록일
- 2020-12-09
- 파일포맷
- EPUB
- 파일크기
- 20MB
- 공급사
- 교보문고
- 지원기기
-
PC
PHONE
TABLET
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
이 책은 인공지능이 올바른 데이터를 입력 받아 의미 있는 결과를 도출하는 과정에서 필수적으로 거쳐야 할 데이터 전처리에 관한 ‘입문서’이다. 정형 데이터뿐만 아니라 이미지, 텍스트 데이터와 같은 비정형 데이터를 다루는 방법을 제공한다. 데이터를 처리하고 분석하기 위해 가장 많이 사용되는 파이썬 언어를 사용하고, NumPy, Pandas 등 라이브러리를 통해 어떠한 방법으로 데이터를 시각화하고, 의미를 도출할 수 있는지를 자세하게 배울 수 있다. 실습 위주의 책이며, 파이썬을 조금만 알아도 누구나 쉽게 따라해보면서 데이터 전처리의 개념과 방법 등에 관한 기초지식을 충분히 습득할 수 있다. 이것을 기초로 스스로 데이터 전처리 전문가가 되는 길을 찾을 수 있을 것이다.
[샘플원고] www.roadbook.co.kr/244
_대상 독자
머신러닝이나 딥러닝을 학습하고 실무에서 모델을 작성해보고자 하는 입문자
인공지능 개발자가 되기 위해 고군분투 중인 취준생 개발자
저자소개
저자 : 아다치 하루카
저자 : 아다치 하루카
BULB 주식회사 소속의 데이터 과학자이다. SE나 데이터 IT 벤더 데이터 분석 등을 다양하게 경험하였다. 수많은 데이터 분석 프로젝트 외에도 실무자 교육도 틈틈이 병행하고 있으며, 개인 활동으로 기사와 책 쓰기 세미나 강의도 즐긴다. 저서로는 『텐서플로로 시작하는 딥러닝 입문』, 『초보자를 위한 신경망 딥러닝 입문』이 있다. 감수성이 예민한 시기에 고등 전문 학교에서 5 년을 보내버린 탓인지 주변에서 괴짜라는 평가를 받고 있다.
역자 : 김태현
소프트웨어 엔지니어. 번역가.
애플리케이션 프로그래밍으로 시작했지만 일본으로 이주하면서 임베디드 소프트웨어 분야로 전업했다. 현재는 소프트웨어 개발뿐만 아니라 책 번역에도 힘을 쓰고 있다. 로드북에서 『Xcode4로 시작하는 아이폰 프로그래밍』 및 『데이터 시각화 입문』을 번역하였다.
감수 : 조휘용
대학원 진학 전부터 신경망에 관심을 가지고 이를 공부하기 시작했다. 신경망 기술이 많은 사회적 문제를 해결할 수 있다는 매력에 끌려 지금까지 공부하고 있으며, 대학원 과정에서 신경망 기술을 활용하여 수작업을 자동화하는 문제를 다루면서 그 믿음이 굳어졌다. 정보 격차에 관심이 많으며, 이를 해결하기 위해 개인 블로그 운영, 오픈소스 참여 등의 활동을 하고 있다. 로드북에서 『백견불여일타 딥러닝 입문 with 텐서플로우 2.x』를 집필했다.
목차
지은이의 글
옮긴이의 글
감수자의 글
다운로드 및 개발환경 안내
일러두기
1장 데이터 분석, 활용을 시작하기 전에
1 데이터 기반 시대로
2 데이터 분석 프로젝트에 필요한 요소
3 데이터 분석 인재에게 필요한 스킬
컬럼 | 보충지식 1 BI로 무엇을 할 수 있나?
컬럼 | 보충지식 2 데이터처리가 빠른 툴은?
2장 데이터 분석의 프로세스와 환경
1 들어가며
2 비즈니스 이해
3 데이터 이해
4 데이터 준비
5 모델 작성
6 평가
7 배포/공유
8 데이터 분석 환경의 선택
9 주피터 노트북 사용 방법
3장 정형 데이터의 전처리 (1)
1 데이터 이해
2 데이터 준비
3 모델 작성
4 다시 데이터 준비로
5 다시 한번 모델 작성으로
컬럼 | 보충지식 1 데이터 결합
컬럼 | 보충지식 2 오버 샘플링
컬럼 | 보충지식 3 분할의 순도
[함께 해봐요 3-1] Pandas를 사용한 파일 업로드
[함께 해봐요 3-2] 데이터의 행수와 열수 확인
[함께 해봐요 3-3] 데이터형 확인
[함께 해봐요 3-4] 결손값의 포함 유무 확인
[함께 해봐요 3-5] 결손값의 개수 파악
[함께 해봐요 3-6] 데이터형이 수치인 항목의 통계량 계산
[함께 해봐요 3-7] age의 히스토그램 작성
[함께 해봐요 3-8] age와 balance 산포도 작성과 항목 관련성 확인
[함께 해봐요 3-9] 문자열 항목 중 job의 원 그래프 작성 (1)
[함께 해봐요 3-10] 문자열 항목 중 job의 원 그래프 작성 (2)
[함께 해봐요 3-11] y의 원 그래프 작성 및 데이터 분포 확인
[함께 해봐요 3-12] 목적변수 y에 대한 데이터 분포 확인
[함께 해봐요 3-13] 전처리를 위한 코드 입력
[함께 해봐요 3-14] 각 항목의 데이터형 재확인
[함께 해봐요 3-15] 결손값 제외
[함께 해봐요 3-16] 결손값 보완
[함께 해봐요 3-17] 특이값(이상치) 제외
[함께 해봐요 3-18] 값 두 개를 가지는 데이터 변환
[함께 해봐요 3-19] 다수의 값을 가지는 데이터 변환
[함께 해봐요 3-20] 분석 데이터 세트로 완성
[함께 해봐요 3-21] 더미 변수화한 데이터 결합
[함께 해봐요 3-22] CSV 파일로 결과 출력
[함께 해봐요 3-23] Pandas를 사용한 결합의 이미지 표현
[함께 해봐요 3-24] 데이터를 로드하는 코드 작성
[함께 해봐요 3-25] imbalanced-learn 패키지 설치 유무 확인
[함께 해봐요 3-26] 주티퍼랩에 설치된 패키지 확인
[함께 해봐요 3-27] imbalanced-learn 패키지 설치
[함께 해봐요 3-28] 불균형 데이터 세트에 대한 언더 샘플링
[함께 해봐요 3-29] 오버 샘플링 구현
[함께 해봐요 3-30] 결정 트리 알고리즘을 사용한 모델 검증
[함께 해봐요 3-31] 재현율과 적합도 확인
[함께 해봐요 3-32] 파라미터와 기본값 확인
[함께 해봐요 3-33] 그리드 서치를 사용한 모델의 성능 개선
[함께 해봐요 3-34] 가장 높은 성능일 때의 모델에 대한 파라미터 조합 확인
[함께 해봐요 3-35] 모델 완성 및 영향력 높은 변수 확인
[함께 해봐요 3-36] job 통합 및 새로운 특징량 생성
[함께 해봐요 3-37] month 통합 및 새로운 특징량 생성
[함께 해봐요 3-38] day 통합 및 새로운 특징량 생성
[함께 해봐요 3-39] duration 통합 및 새로운 특징량 생성
함께 해봐요 3-40] previous 통합 및 새로운 특징량 생성
[함께 해봐요 3-41] 더미변수를 만들기 위한 목록 삽입
[함께 해봐요 3-42] get_dummies를 사용한 더미변수 생성
[함께 해봐요 3-43] CSV 파일 내용 변경
[함께 해봐요 3-44] feature_selection을 통한 변수 사용 유무 확인
4장 정형 데이터의 전처리 (2)
1 고객의 특성 이해
2 고객의 그룹화
3 잠재적인 요구 추출
[함께 해봐요 4-1] 분석 데이터를 읽기 위한 코드 작성
[함께 해봐요 4-2] 각 항목의 데이터형 재확인
[함께 해봐요 4-3] 범위변환 테스트
[함께 해봐요 4-4] Z변환 테스트
[함께 해봐요 4-5] 각 변수의 평균과 표준편차 값 확인
[함께 해봐요 4-6] 계층형 클러스터링을 이용한 그룹 분할
[함께 해봐요 4-7] 고객별 그룹 확인
[함께 해봐요 4-8] k-Means법을 이용한 그룹 분할
[함께 해봐요 4-9] 클러스터 ID별 데이터 분포 확인
[함께 해봐요 4-10] 클러스터 ID별 데이터 세트와의 결합
[함께 해봐요 4-11] 그룹별 데이터 건수 확인
[함께 해봐요 4-12] 각 그룹의 통계량 계산 및 성질 파악
[함께 해봐요 4-13] PCA를 이용한 신규변수 작성
[함께 해봐요 4-14] 목적변수별 분포 확인
[함께 해봐요 4-15] 목적변수별 산포도 확인
5장 이미지 데이터의 전처리
1 데이터 이해
2 기계학습을 위한 데이터 준비
3 딥러닝을 위한 데이터 준비
컬럼 | 보충지식 1 중간층의 추출
[함께 해봐요 5-1] OpenCV 설치
[함께 해봐요 5-2] swiss-army-ant.jpg 읽기
[함께 해봐요 5-3]