상세정보
파이썬과 확률분포
- 저자
- 손현석
- 출판사
- 토마토마트
- 출판일
- 2018-05-22
- 등록일
- 2018-07-30
- 파일포맷
- EPUB
- 파일크기
- 0
- 공급사
- 교보문고
- 지원기기
-
PC
PHONE
TABLET
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
들어가는 말
무질서해 보이는 자료에서 질서 있는 관계를 도출할 목적으로 통계분석을 수행합니다. 통계분석 수행을 위해 자료의 특성들을 이해하는 것이 선행되어야 하며 그러한 특성은 자료들의 분포를 살펴보는 것으로 시작합니다. 자료의 원천은 특정한 공장에서 불량품 비율로 부터 일상의 출근방식까지 매우 다양합니다. 이러한 자료의 각 값들은 확정적(결정적)으로 어떠한 법칙에 의해 생성되기 보다는 어느정도의 불확실성을 가집니다. 자료에 불확실성이 존재한다는 것은 확률적으로 생성된다는 것을 의미하지요.
확률적으로 생성된 자료를 그려보면 일정한 형태를 보이고 그 형태는 몇가지 유형으로 정리할 수 있습니다. 이러한 형상을 확률분포라고 하며 그 분포를 이루는 식을 공식화하여 수학적으로 나타낼 수 있습니다. 역으로 공식화된 분포들에 자료의 형태를 근사시켜 적합한 유형을 알아내는 것이 통계분석의 시작점이 됩니다. 물론 이러한 분포에 상관없이 진행하는 비모수 방법이 있지만 이 방법 역시 결국에는 어떠한 분포를 가정합니다. 또한 회귀분석과 같은 예측방법에는 다양한 가정을 전제로 진행되는데 그 전제가 분포와 관련됩니다. 즉, 데이터의 분포는 통계분석의 전제사항이 되며 분석 결과를 해석하는 토대가 됩니다. 이 책은 그러한 몇몇의 특정한 분포를 이해하기 위한 것으로 각 분포가 가지고 있는 근거를 제시함으로서 그 의미를 파악하는 것이 목적입니다.
분포를 이해하기 위해서는 확률 개념이 필요합니다. 확률은 일상에서 빈번하게 접하는 것이지만 통계분석에 적용하기 위해서는 약간의 수학적 방법이 사용됩니다. 이책에서는 파이썬이라는 프로그래밍 언어를 사용하여 계산부분을 대체 할 것입니다. 1장에서는 자료의 본격적인 분석 전에 특성을 이해하는 기본적인 사항들을 소개합니다. 2장은1장에서 소개하는 특성들을 이해하기 위해 필요한 확률의 개념과 계산방법을 소개하며 3장에서는 소개한 확률개념을 자료에 적용하는 과정에 대한 이야기 입니다. 4장과 5장은 자료들을 근사시킬수 있는 확률분포들에 대해 소개합니다. 이외에 5개의 부록을 수록하였는데 각각은 1장에서 5장까지의 설명에서 필요한 python의 코드와 패키지에 대해 설명합니다.
아래에 서술한 python 패키지(모듈)은 본 책에서 사용하는 것으로 python 실행시 함께 장착하여 사용해야 합니다.
import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
from scipy import stats
from fractions import Fraction
from sympy import *
from scipy import integrate
저자소개
저자 : 손현석
저자 소개
Nnode 이사로 재직하고 있으며 R과 Pyhton을 사용한 데이터 분석에 관심을 가지고 있습니다. 서울대학교에서 공부하였고(환경보건학 박사) 건국대(충추)에서 교수로 근무하였습니다.
"파이썬으로의 여행"(국문), "프로그램 R을 활용한 주가회귀모형의 구축"(국문), "Create forecast model for stock with regression analysis and R"(영문), "python manual"(영문)등의 책을 출간하였습니다.
sonhs67@gmail.com
datastory1.blogspot.com
목차
목 차
1. 기술 통계 (Descriptive Statistics)
1.1 데이터셋의 준비
호출한 데이터를 엑셀에 저장하기
1.2 자료의 요약
1.2.1 빈도 표와 그래프
1.1.2 샘플 평균, 중간값, 최빈값
평균
중간값
최빈값(mode)
1.2.3 분산과 표준편차
분산
1.2.4 사분위수(quartiles)
1분위수
1.2.5 체비세프 부등(Chebyshev’s inquality)
1.2.6 데이터의 정규분포성
1.2.7 짝을 이룬 데이터들과 상관계수
2. 확률의 원리
2.1 개요
2.2 용어
1) 확률실험(random experiment,시행)
2) 표본공간(sample space)와 원소(element)
3) 사건(event)
4) 벤다이어그램(Venn Diagram)
5) 전체집합(Universe set)
6) 공집합(Empty set)
7) 합집합(Union)
8) 교집합(Intersection)
9) 여집합(complement)
10) 부분집합(subset)
11) 상호 배타적 또는 독립적(mutually exclusive, disjoint, independent)
12) 분배법칙(Distribution Laws)
13) 드모르간 법칙(DeNorgan's law)
2.3 확률 계산과정
2.4 순열과 조합 (Permutation & Combination)
곱의 법칙
확률적 분석과정
2.5 독립과 조건부 확률
2.5.1 독립
독립과정들의 곱법칙
2.5.2 조건부 확률
조건부확률
2.5.3 Bayes 정리
Bayes 정리
3. 랜덤변수와 주요통계량
3.1 주요 통계량
3.1.1 기대값
기대값의 선형결합
3.1.2 분산 (Variance)
분산의 결합
3.1.3 왜도와 첨도
3.2 확률부등식과 모멘트생성함수
마르코프 부등식(Markov’s inequality)
체비셰프의 부등(Tchebycheff's inequallity)
모멘트생성함수(Moment generating function)
3.2 랜덤변수들의 결합
독립관계
종속관계
4 이산확률분포
4.1 이산확률함수
4.1.1 확률질량함수(Probability Mass Function, PMF)
4.1.2 누적분포함수(Cumulative Distribution Function, CDF)
4.2 이산확률분포
4.2.1 베르누이와 이항 랜덤분포
4.2.2 기하분포(Geometric distribution)
기대값
4.2.3 음이항분포(Negative Binomial Distribution)
4.2.4 초기하분포(Hypergeometric distribution)
평균과 분산
4.2.5 포아송분포(Poisson distribution)
기대값과 분산
이산변수분포 연습
5 연속확률분포
5.1 확률밀도함수(Probability Density Function, PDF)
5.2 연속랜덤분포
5.2.1 균일분포(Uniform Distribution)
평균
분산
5.2.2 정규분포(Normal (Gaussian) Distribution)
평균
분산
CDF(누적분포함수)
5.2.3 지수분포(Exponential Distribution)
평균
분산
5.2.4 감마분포(Gamma Distribution)
감마함수
감마분포
평균
분산
5.3. 정규분포와 관련된 분포들
5.3.1 Chi-square 분포
평균과 분산
5.3.2 t 분포
5.3.3 F 분포
부록 1 matlaplib을 사용한 그래프 작성 기본 구조
부록 2 scipy.stats 클래스 함수
부록 3 set
부록 4 numpy와 pandas의 기본 구조
차원의 의미
부록 5 Sympy 객체를 사용한 미분과 적분
개요
sympy에 의한 미분
Sympy에 의한 적분