책소개
데이터 분석은 좋은 질문에서 시작합니다이 책에서는 누구나 궁금했던 그 질문에 대해 데이터로 답해 다. 이 책은 파이썬을 처음 접하는 마케팅, 영업, 기획 실무 담당자들이 파이썬을 활용한 데이터 분석에 재미있게 빠져들 수 있도록 실제 업무에 활용할 수 있거나 흥미로운 예제로 구성되어있다. 이 책을 마치고 나면 데이터를 기반으로 좋은 질문에 답할 수 있는 실력을 키울 수 있을 것이다.
저자소개
주로 안드로이드 앱 개발자로 활동하다가 현재 회사인 '망고플레이트'에 입사하면서 본격적으로 안드로이드, 백엔드, 프런트엔드 업무까지 담당하는 등 다양한 개발 경험을 쌓고 있다. 맛집 데이터 정보를 효율적으로 수집 및 관리하기 위해 파이썬을 이용하면서 우연히 데이터 분석 스터디 모임인 Play with Data를 알게 됐고 모임을 준비하고 진행하면서 많은 것을 배우고 있다.
목차
▣ 01장: 준비하기1.1 실습 자료 내려받기1.2 파이썬 준비____1.2.1 아나콘다 내려받기____1.2.2 아나콘다 설치____1.2.3 주피터 노트북 준비____1.2.4 주피터 노트북 시작하기____1.2.5 주피터 노트북 사용하기1.3 파이썬 맛보기____1.3.1 파이썬 코드 입력 및 실행____1.3.2 값 입력 및 출력____1.3.3 리스트____1.3.4 반복문____1.3.5 문자열____1.3.6 조건문____1.3.7 함수▣ 02장: 데이터 분석 기초2.1 pandas 기초____2.1.1 pandas란? ____2.1.2 데이터 불러오기(read_excel)____2.1.3 데이터 선택 ① - 칼럼 기준____2.1.4 데이터 선택 ② - 로우 기준____2.1.5 데이터 통합 ① - 옆으로 통합(merge)____2.1.6 데이터 통합 ② - 아래로 통합(append)____2.1.7 데이터 저장(to_excel)____2.1.8 데이터 집계(pivot_table)2.2 웹 크롤링 기초____2.2.1 selenium과 크롬드라이버 설치____2.2.2 크롬드라이버 활용하기____2.2.3 웹 페이지 접속____2.2.4 웹 페이지(HTML) 다운로드____2.2.5 HTML 구조 살펴보기____2.2.6 크롬 브라우저에서 웹 페이지의 HTML 살펴보기____2.2.7 BeautifulSoup을 이용한 정보 찾기____2.2.8 HTML 정보 찾기 ① - 태그 속성 활용____2.2.9 HTML 정보 찾기 ② - 상위 구조 활용____2.2.10 정보 가져오기 ① - 태그 그룹에서 하나의 태그 선택하기____2.2.11 정보 가져오기 ② - 선택한 태그에서 정보 가져오기____2.2.12 멜론 노래 순위 정보 크롤링____2.2.13 selenium을 활용한 크롤링▣ 03장: 데이터 분석 맛보기3.1 여러 음원 서비스의 순위 수집/정리하기____3.1.1 멜론 크롤링 결과를 엑셀로 저장하기____3.1.2 벅스 크롤링 결과를 엑셀 파일로 저장하기____3.1.3 지니 크롤링 결과를 엑셀 파일로 저장하기____3.1.4 멜론, 벅스, 지니 크롤링 엑셀 파일 통합하기3.2 유튜브 랭킹 데이터 수집과 시각화____3.2.1 유튜브 랭킹 데이터 수집하기____3.2.2 유튜브 랭킹 데이터 시각화하기____3.2.3 결론▣ 04장: 코로나 바이러스(COVID19)의 영향으로 중국인 관광객이 얼마나 줄었을까4.1 외국인 출입국 통계 데이터 구하기4.2 데이터 불러오기 및 전처리____4.2.1 불러올 데이터의 형태 파악____4.2.2 파이썬에서 엑셀 데이터 불러오기____4.2.3 데이터 전처리____4.2.4 데이터 전처리 과정을 함수로 만들기____4.2.5 반복문을 통해 다수의 엑셀 데이터를 불러와서 합치기____4.2.6 통합 데이터를 엑셀 파일로 저장하기____4.2.7 국적별 필터링된 데이터를 엑셀 파일로 저장하기4.3 데이터 시각화____4.3.1 데이터 시각화의 중요성____4.3.2 시계열 그래프 그리기____4.3.3 히트맵 그래프 그리기4.4 시각화 해석하기4.5 정리▣ 05장: 가장 뜨는 제주도 핫플레이스는 어디일까?5.1 인스타그램 크롤링____5.1.1 크롤링 과정____5.1.2 인스타그램 접속 후 로그인하기____5.1.3 인스타그램 검색 결과 URL을 만들어 접속하기____5.1.4 첫 번째 게시글 열기____5.1.5 게시글 정보 가져오기____5.1.6 다음 게시글 열기____5.1.7 여러 게시글 정보 수집하기____5.1.8 수집 데이터 저장____5.1.9 여러 엑셀 파일의 중복을 제거한 후 통합 저장5.2 워드 클라우드____5.2.1 워드 클라우드를 만드는 과정____5.2.2 해시태그 데이터 불러오기____5.2.3 해시태그 출현 빈도 집계____5.2.4 막대차트로 해시태그 살펴보기____5.2.5 워드 클라우드 그리기5.3 지도 시각화____5.3.1 지도 시각화 과정____5.3.2 데이터 준비____5.3.3 카카오 검색 API 가입____5.3.4 카카오 로컬 API를 활용한 장소 검색____5.3.5 위치 정보별 인스타 게시량 정리____5.3.6 folium을 이용한 지도 시각화 ① - 개별 표시____5.3.7 folium을 이용한 지도 시각화 ② - 그룹으로 표시5.4 특정 단어를 포함한 게시글 찾기____5.4.1 원하는 게시글 찾기____5.4.2 데이터 준비하기____5.4.3 단어 선택하기5.5 정리▣ 06장: 왜 우리 동네에는 스타벅스가 없을까?6.1 데이터 수집____6.1.1 크롤링을 이용한 서울시 스타벅스 매장 목록 데이터 생성____6.1.2 서울열린데이터광장의 OPEN API를 활용한 공공데이터 수집6.2 데이터 전처리____6.2.1 서울시 스타벅스 매장 목록, 인구, 사업체 데이터에 시군구명, 시군구코드 추가____6.2.2 스타벅스 분석 데이터 만들기6.3 데이터 시각화____6.3.1 스타벅스 매장분포 시각화____6.3.2 시군구별 스타벅스 매장 수 시각화____6.3.3 스타벅스 매장 수와 인구수 비교____6.3.4 스타벅스 매장 수와 사업체 수 비교6.4 정리▣ 07장: 어떤 무선청소기가 인기가 좋을까?7.1 데이터 수집 1 - 한 페이지 크롤링____7.1.1 다나와 소개____7.1.2 다나와 검색 페이지 접속____7.1.3 다나와 검색 웹 페이지에서 상품 정보 가져오기7.2 데이터 수집 2 - 여러 페이지에 걸친 다나와 검색 페이지 크롤링____7.2.1 다나와 검색 결과 페이지 URL 분석____7.2.2 주피터 노트북의 진행표시줄 처리____7.2.3 여러 페이지에 걸친 상품 정보 수집____7.2.4 수집 데이터 저장 7.3 다나와 크롤링 데이터 전처리____7.3.1 다나와 크롤링 데이터 불러오기____7.3.2 회사명, 모델명 정리____7.3.3 스펙 목록 데이터 살펴보기____7.3.4 스펙 목록에서 카테고리, 사용시간, 흡입력을 추출해서 정리____7.3.5 무선청소기 사용시간 단위 통일시키기____7.3.6 무선 청소기 흡입력 단위 통일시키기____7.3.7 다나와 전처리 결과를 엑셀로 저장7.4 무선청소기 모델별 비교 분석____7.4.1 데이터 살펴보기 ____7.4.2 가성비 좋은 제품 살펴보기____7.4.3 데이터 시각화____7.4.4 인기 제품의 데이터 시각화7.5 정리