책소개
혼자 해도 충분하다! 1:1 과외하듯 배우는 데이터 분석 자습서
이 책은 독학으로 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로 학습’할 수 있도록 구성했습니다. 뭘 모르는지조차 모르는 입문자의 막연한 마음에 십분 공감하여 과외 선생님이 알려주듯 친절하게, 핵심적인 내용만 콕콕 집어 줍니다. 책의 첫 페이지를 펼쳐서 마지막 페이지를 덮을 때까지, 혼자서도 충분히 데이터 분석을 배울 수 있다는 자신감과 확신이 계속될 것입니다!
베타리더 검증으로, ‘함께 만든’ 입문자 맞춤형 도서
베타리더와 함께 입문자에게 맞는 난이도, 분량, 학습 요소 등을 고민하고 이를 적극 반영했습니다. 어려운 용어와 개념은 한 번 더 풀어쓰고, 복잡한 설명은 눈에 잘 들어오는 그림으로 풀어냈습니다. ‘혼자 공부해 본’ 여러 입문자의 초심과 눈높이가 책 곳곳에 반영된 것이 이 책의 가장 큰 장점입니다.
누구를 위한 책인가요?
데이터 분석을 어떻게 시작할지 막막한 비전공자
파이썬을 배운 다음 의미 있는 실습을 해 보고 싶은 파이썬 입문자
프로그래밍은 알지만, 분석(통계)에 대한 이해가 필요한 개발자
데이터에서 유의미한 결과를 도출해 이를 기획이나 마케팅에 적용해 보고 싶은 직장인
데이터 분석가, 데이터 사이언티스트라는 직업에 관심 있는 모든 사람
저자소개
기계공학을 전공했으나 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 했다. 지금은 ML GDE(Machine Learning Google Developer Expert)로 활동하고 있고, 머신러닝과 딥러닝에 관한 책을 집필하고 번역하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있다.
『Do it! 딥러닝 입문』(이지스퍼블리싱, 2019)을 집필하고, 『핸즈온 머신러닝(2판)』(한빛미디어, 2020), 『미술관에 GAN 딥러닝 실전 프로젝트』(한빛미디어, 2019), 『파이썬을 활용한 머신러닝 쿡북』(한빛미디어, 2019), 『머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로』(길벗, 2019), 『파이썬 라이브러리를 활용한 머신러닝』(한빛미디어, 2019), 『케라스 창시자에게 배우는 딥러닝』(길벗, 2018), 『핸즈온 머신러닝』(한빛미디어, 2018), 『텐서플로 첫걸음』(한빛미디어, 2016)을 우리말로 옮겼다.
목차
Chapter 01 데이터 분석을 시작하며
01-1 데이터 분석이란
__데이터 분석과 데이터 과학
__데이터 분석가
__데이터 분석을 위한 도구
[좀 더 알아보기] 데이터 마이닝과 머신러닝
[3가지 키워드로 정리하는 핵심 포인트]
[학습에 꼭 필요한 핵심 패키지]
[확인 문제]
01-2 구글 코랩과 주피터 노트북
__구글 코랩
__노트북
[좀 더 알아보기] 마크다운 서식
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 텍스트 셀 툴바]
[확인 문제]
01-3 이 도서가 얼마나 인기가 좋을까요?
__도서 데이터 찾기
__코랩에서 데이터 확인하기
__파이썬으로 CSV 파일 출력하기
__데이터프레임 다루기: 판다스
__[문제 해결 과정] 적절한 데이터를 찾아서 업로드하고 읽기
[좀 더 알아보기] 공개 데이터 세트 대표 사이트와 유명 포럼
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 02 데이터 수집하기
02-1 API 사용하기
__API란
__파이썬에서 JSON 데이터 다루기
__파이썬에서 XML 데이터 다루기
__API로 20대가 가장 좋아하는 도서 찾기
__[문제 해결 과정] 공개 API로 웹에서 데이터 가져오기
[4가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
02-2 웹 스크래핑 사용하기
__도서 쪽수를 찾아서
__검색 결과 페이지 가져오기
__HTML에서 데이터 추출하기: 뷰티플수프
__전체 도서의 쪽수 구하기
__웹 스크래핑할 때 주의할 점
__[문제 해결 과정] 웹 스크래핑으로 HTML 수집하기
[좀 더 알아보기] merge() 함수의 매개변수
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 03 데이터 정제하기
03-1 불필요한 데이터 삭제하기
__열 삭제하기
__행 삭제하기
__중복된 행 찾기
__그룹별로 모으기
__원본 데이터 업데이트하기
__[문제해결 과정] 일괄 처리 함수 만들기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
03-2 잘못된 데이터 수정하기
__데이터프레임 정보 요약 확인하기
__누락된 값 처리하기
__정규 표현식
__잘못된 값 바꾸기
__누락된 정보 채우기
__[문제해결 과정] 데이터를 이해하고 올바르게 정제하기
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 04 데이터 요약하기
04-1 통계로 요약하기
__기술통계 구하기
__평균 구하기
__중앙값 구하기
__최솟값, 최댓값 구하기
__분위수 구하기
__분산 구하기
__표준편차 구하기
__최빈값 구하기
__[문제해결 과정] 데이터프레임에서 기술통계 구하기
[좀 더 알아보기] 넘파이의 기술통계 함수
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
04-2 분포 요약하기
__산점도 그리기
__히스토그램 그리기
__상자 수염 그림 그리기
__[문제해결 과정] 통계량을 시각적으로 표현하기
[좀 더 알아보기] 판다스의 그래프 함수
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 05 데이터 시각화하기
05-1 맷플롯립 기본 요소 알아보기
__Figure 객체
__rcParams 객체
__여러 개의 서브플롯 출력하기
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
05-2 선 그래프와 막대 그래프 그리기
__연도별 발행 도서 개수 구하기
__주제별 도서 개수 구하기
__선 그래프 그리기
__막대 그래프 그리기
__[문제 해결 과정] 맷플롯립으로 선 그래프와 막대 그래프 그리기
[좀 더 알아보기(1)] 이미지 출력하고 저장하기
[좀 더 알아보기(2)] 그래프를 이미지로 저장하기
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 06 복잡한 데이터 표현하기
06-1 객체지향 API로 그래프 꾸미기
__pyplot 방식과 객체지향 API 방식
__그래프에 한글 출력하기
__출판사별 발행 도서 산점도 그리기
__[문제 해결 과정] 맷플롯립의 다양한 기능으로 그래프 개선하기
[3가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
06-2 맷플롯립의 고급 기능 배우기
__실습 준비하기
__하나의 피겨에 여러 개의 선 그래프 그리기
__하나의 피겨에 여러 개의 막대 그래프 그리기
__원 그래프 그리기
__여러 종류의 그래프가 있는 서브플롯 그리기
__[문제 해결 과정] 맷플롯립으로 복잡한 그래프 그리기
[좀 더 알아보기] 판다스로 여러 개의 그래프 그리기
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 07 검증하고 예측하기
07-1 통계적으로 추론하기
__모수검정이란
__표준점수 구하기
__중심극한정리 알아보기
__모집단의 평균 범위 추정하기: 신뢰구간
__통계적 의미 확인하기: 가설검정
__정규분포가 아닐 때 가설 검증하기: 순열검정
[문제 해결 과정] 표본 데이터에서 의사 결정 도출하기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
07-2 머신러닝으로 예측하기
__알아 두면 좋은 머신러닝 용어
__모델 훈련하기
__훈련된 모델을 평가하기: 결정계수
__연속적인 값 예측하기: 선형회귀
__카테고리 예측하기: 로지스틱 회귀
__[문제 해결 과정] 도서권수로 대출건수 예측하기
[좀 더 알아보기] 평균제곱오차와 평균절댓값오차로 모델 평가하기
[8가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
부록 A 한발 더 나아가기: 데이터베이스와 SQL
부록 B 이 책에서 배운 함수와 메서드
부록 C 에필로그
__확인 문제 정답
__찾아보기