상세정보
파이썬을 이용한 통계적 머신러닝 제4판

파이썬을 이용한 통계적 머신러닝 제4판

저자
박유성 저
출판사
자유아카데미
출판일
2023-11-01
등록일
2024-03-08
파일포맷
PDF
파일크기
36MB
공급사
YES24
지원기기
PC PHONE TABLET 웹뷰어 프로그램 수동설치 뷰어프로그램 설치 안내
현황
  • 보유 2
  • 대출 2
  • 예약 0

책소개

머신러닝은 주어진 데이터만을 이용하여 예측, 분류, 차원축소, 생성, 재생 등을 실행하는 데이터과학 모형을 말한다. 통계학에서는 데이터에 대한 가정을 바탕으로 상당한 수준의 통계적, 수학적 지식을 이용하여 추정, 검정, 예측 등의 통계적 추론을 하게 된다. 그러나 머신러닝은 데이터에 대한 가정 없이 주어진 데이터만으로 좋은 통계적 추론을 도출할 수 있도록 데이터의 split, sample weights, resampling, randomization 등으로 통계학의 기본조건을 충족시키고 있다. 그러므로 통계학의 기본조건이 무엇인지를 알아야 머신러닝의 근간을 이해할 수 있고 이를 바탕으로 자신만의 성능이 우수한 머신러닝 모형을 개발할 수 있다.

통계학의 기본조건은 주어진 데이터가 미지의 모집단으로부터의 임의표본이며, 이러한 임의표본은 반복해서 추출할 수 있다는 가정이다. 임의표본이란 표본이 미지의 모집단으로부터 하게 추출되었다는 의미로, 간단하게 말해서 주어진 데이터가 미지의 모집단을 잘 대표하게 뽑혔다는 말이 된다. 두 번째 가정인 반복적 임의표본추출은 통계학의 이론적 추론을 가능하게 하여 수리통계학과 확률론의 근간을 제공한다.

그러나 실제 문제에서는 데이터셋 하나만 관측되었을 뿐이다. 머신러닝에서는 데이터의 shuffling을 전제로 한 split과 resampling을 통해, 통계학의 임의표본과 반복추출된 임의표본을 실제로 구현해서 다양한 통계적 추론을 하게 된다. 이 이상의 추가적인 수학적, 통계적 지식은 불필요하다. 통계학에서처럼 모형은 맞지만 모형에 있는 모수만 모른다는 불합리한 가정도 하지 않으며, 단지 데이터의 split을 통해 모형이 맞는지 그리고 모수추정이 제대로 되었는지를 쉽게 점검할 수 있다. resampling을 통해 보다 정밀한 통계적 추론이 가능하고 특히 bagging이라는 앙상블러닝을 실행할 수 있다. 표본별 중요도에 따라 가중치를 부여하는 것을 표본 weights라고 한다. 표본 weight는 K-nearest neighborhood를 기반으로 하는 모든 통계적 기법과 최첨단 모형인 boosting에서 사용하며 머신러닝에서 모수를 추정하기 위한 목적함수인 손실함수에 이용된다. randomization은 모형이 불필요한 잡음(noise)마저 학습했는지를 점검하는 중요한 수단이다.

그러므로 split, sample weights, resampling, 그리고 randomization라는 keyword를 가지고 이 책을 읽고 이해한다면 여러분은 통계적 기본원리와 머신러닝의 방법론이 어떻게 융합되었는지를 습득했다고 생각해도 된다. 그러면 이 책의 주제인 통계적 머신러닝에 이어서 공부해야 할 딥러닝, 강화학습, XAI, 그리고 필요시 시계열분석까지 AI 분석 모형들의 여행을 큰 어려움 없이 나아갈 수 있을 것이다. 이러한 관점에서 제1장을 꼼꼼히 읽어 보고 주어진 코드를 실행해 보는 것은 앞의 네 가지 keywords를 체험적으로 이해할 수 있도록 해준다.

좋은 책을 위해 최선을 다했지만 부족한 부분이 있을 수 있다. 이 점은 양해를 바라며, 출간 후에 나올 수 있는 수정사항 등은 자유아카데미 홈페이지 자료실(www.freeaca.com)에 제공할 예정이니 참고 바란다. 끝으로 이 책의 개념도를 그려준 박진세 군에게 감사의 마음을 전하며, 끊임없는 성원과 사랑으로 지원을 아끼지 않은 사랑하는 아내와 딸아이에게도 감사한 마음을 전한다.

QUICKSERVICE

TOP