책소개
이 책은 단순히 데이터 분석 기법을 나열하는 책이 아닙니다.
데이터 분석의 핵심 기법들을 숲(전체적인 흐름)과 나무(각 개별 기법)의 관점에서 체계적으로 정리하였습니다.
주성분 분석(PCA), 시계열 분석, 경로분석, 구조방정식모형(SEM), 생존분석 등 실무에서 자주 사용하는 분석 기법들을 초보자도 이해할 수 있도록 순차적으로 구성하였습니다.
이 책은 R을 기반으로 실습 코드를 포함하고 있으며, 각 기법의 개념, 해석, 시각화 과정을 통해 독자 스스로 분석 결과를 해석하고 실무에 적용할 수 있도록 설계되었습니다.
데이터 분석이 단순한 코드 작성이 아닌, 문제 해결 과정임을 체감할 수 있는 안내서가 될 것입니다.
목차
서 론: 이제는 데이터를 해석할 차례입니다.2
1. 데이터 분석이 필요한 이유3
2. 통계 분석과 머신러닝, 무엇이 다를까?4
3. 이 책의 목표와 접근 방식4
4. 이 책의 구성6
5. 기대되는 결과8
제 1 장: 분석 기법의 개요10
1.1 분석 기법의 개요10
제 2 장: 분포 및 데이터 특성 분석15
2.1 적합도 검정 (Goodness-of-Fit Test)18
2.2 독립성 검정 (Chi-square Test for Independence)23
2.3 동질성 검정 (Chi-square Test for Homogeneity)29
2.4 기대값이 작을 때 대처: 다항형 및 Fishers Exact Test35
2.5 정규성 검정 (Normality Test)40
2.6 등분산 검정 (Equality of Variance Test)49
2.7 이상치 탐지( Boxplot, IQR, Mahalanobis Distance)55
제 3 장: 평균 및 집단 비교 분석64
3.1 t-검정64
3.1.1 단일표본 t-검정( One-Sample ?Test )64
3.1.2 독립표본 t-검정 (Independent T-test)65
3.1.3 대응표본 t-검정 (Paired T-test)66
3.2 분산분석(ANOVA, 일원/이원 ANOVA)68
3.2.1 일원 분산분석(One-Way ANOVA)71
3.2.2 이원 분산분석(Two-Way ANOVA)72
3.3 공분산분석(ANCOVA)75
제 4 장: 회귀 및 예측 분석84
4.1 단순회귀분석(Simple Regression)86
4.2 다중회귀분석 (Multiple Regression)98
4.3 로지스틱 회귀분석 (Logistic Regression)110
4.4 회귀진단(잔차 분석, 다중공선성, 오차항 분석)117
4.5 정규화 회귀분석 (Lasso, Ridge, Elastic Net)124
4.5.1 Lasso 회귀분석 (L1 정규화)124
4.5.2 Ridge 회귀분석 (L2 정규화)130
4.5.3 Elastic Net 회귀분석 (L1 + L2 정규화)135
4.6 회귀모델 비교와 선택 기준142
4.7 예측 및 분류 모델 성능 평가 지표144
제 5 장: 변수간 관계 분석150
5.1 상관분석 (Correlation Analysis)152
5.2 연관성 분석 (Association Rule Analysis, Apriori 알고리즘 기반)164
제 6 장: 차원 축소 기법173
6.1 주성분분석 (PCA, Principal Component Analysis)174
6.2 요인(인자) 분석 (Factor Analysis)182
제 7 장: 시계열 분석190
7.1 시계열 데이터의 이해192
7.2 시계열 분해(계절 분해) 기법194
7.3 시계열 데이터의 평활화198
7.3.1 이동평균 (Simple Moving Average, SMA)198
7.3.2 지수평활법 (Simple Exponential Smoothing, SES)200
7.3.3 추세와 계절성을 반영한 지수평활법204
7.4 예측을 위한 시계열 분석 절차 (Step by Step)209
7.4.1 [1단계] 시계열 데이터 시각화211
7.4.2 [2단계] 추세 및 계절성 여부 판단212
7.4.3 [3단계] 정상성 확인213
7.4.4 [4단계] 차분 또는 변환214
7.4.5 [5단계] ACF / PACF 분석 ARIMA 차수 결정219
7.4.6 [6단계] 시계열 예측 모델 적용: AR, MA, ARMA, ARIMA, SARIMA223
7.4.6.1 AR(p): 자기회귀 모델224
7.4.6.2 MA(q): 이동 평균 모델226
7.4.6.3 ARMA(p, q): 자기회귀-이동평균 결합 모델229
7.4.6.4 ARIMA(p, d, q): 비정상 시계열 예측 모델232
7.4.6.5 SARIMA(P, D, Q)(p, d, q)[s]: 계절성 ARIMA 모델236
7.4.6.6 auto.arima() 함수의 활용과 자동 모델 선택239
7.4.7 [7단계] 예측 결과 시각화 및 평가 (AIC, RMSE 등)241
7.5 시계열 회귀모형(ARIMAX)245
제 8 장: 고급 통계 분석 및 다변량 분석251
8.1 다변량 회귀 응용: 경로분석(Path Analysis)253
8.2 비지도 학습: 군집분석(Clustering Analysis)260
8.2.1 K-평균(K-means) 군집분석262
8.2.2 계층적 군집분석 (Hierarchical Clustering)267
8.2.3 DBSCAN 군집분석 (Density-Based Spatial Clustering)271
8.2.4 군집 품질 평가: 실루엣 계수(Silhouette Coefficient)276
8.3 지도학습 기반 분류: 판별분석(Discriminant Analysis)279
8.3.1 선형판별분석(LDA: Linear Discriminant Analysis)282
8.3.2 이차판별분석 (QDA: Quadratic Discriminant Analysis)285
8.3.3 비모수판별분석 (NDA: Nonparametric Discriminant Analysis)289
8.3.4. 판별분석 성능 평가 및 비교 시각화294
8.4 구조방정식 모형(SEM, Structural Equation Modeling)300
8.4.1 구조방정식 개념과 흐름 이해301
8.4.2 분석 기법 선택을 위한 조건 판단303
8.4.3 구조방정식 분석의 출발점 : 확인적 요인분석(CFA)306
8.4.4 구조모형 분석(SEM)315
8.4.5 구조방정식의 대안: PLS-SEM 분석322
8.4.6 CB-SEM vs PLS-SEM: 비교와 선택 기준333
8.5 다변량 상관 구조 분석336
8.5.1 다변량 분산분석 (MANOVA, Multivariate Analysis of Variance)336
8.5.2 다변량 공분산분석 (MANCOVA, Multivariate Analysis of Covariance)342
8.5.3 정준 상관분석 (CCA)349
제 9 장: 머신러닝 기초 통계 기법357
9.1 의사결정나무 (Decision Tree)358
9.2 앙상블 학습 (Ensemble Learning)366
9.2.1 배깅 (Bagging)과 랜덤 포레스트(Random Forest)367
9.2.2 부스팅 (Boosting)374
9.2.3 보팅 (Voting)379
9.2.3.1 하드 보팅 (Voting)379
9.2.3.2 소프트 보팅 (Soft Voting)383
9.2.4 스태킹 (Stacking)388
9.3 서포트 벡터 머신(SVM)393
9.4 K-최근접 이웃(KNN) 분석399
9.4.1 KNN 분류 (Classification)400
9.4.2 KNN 회귀 (Regression)405
9.5 다중 로지스틱 회귀분석 (Multinomial Logistic Regression)409
9.6 신경망 및 딥러닝 개요415
제 10 장: 특수 통계 기법419
10.1 생존 분석 (Survival Analysis)420
10.1.1 Kaplan-Meier 생존곡선 분석421
10.1.2 Cox 비례위험 회귀분석 (Cox Proportional Hazards Regression)427
10.1.3 가속수명모형 (AFT: Accelerated Failure Time Model)432
10.2 네트워크 분석 (Network Analysis)437
10.2.1 네트워크 기본 구조 이해 및 시각화439
10.2.2 중심성 분석 (Centrality Analysis)442
10.2.3 커뮤니티 탐지 (Community Detection)445
10.2.4 실전 예제 분석 (마켓 네트워크 or SNS 네트워크 분석)449
제 11 장: 통계 분석 결과 보고서 작성법455
11.1 데이터 분석 보고서 작성 방법457
[ 출처 및 참고문헌 ]464