책소개
본 서의 특징은 다음과 같다.
첫째, 1장에서 기초적인 R 프로그래밍과 데이터를 다양한 방법으로 입력받는 기능들을 공부한 다. 특히 실제 데이터를 웹 등에서 크롤링하여 입력받는 방법도 공부한다.
둘째, R의 장점 중의 하나인 데이터를 효과적으로 보여주기 위한 시각화에 대한 설명이 있다. 이를 기반으로 데이터분석의 결과를 시각화할 수 있을 것이며 또한 시각화를 위한 제3자 개발자 의 소프트웨어도 이해할 수 있을 것으로 예상한다.
셋째, 기초통계학 분야를 100% R로 구현하였다. 실제 데이터로 실습함으로써 학습효과를 높 일 수 있을 것으로 기대된다.
넷째, 본서는 기초적인 분석방법에만 국한하지 않고 데이터분석의 핵심적인 응용분야인 회귀 분석을 자세히 설명되어 있다. 또한 실제 데이터를 다양한 방법으로 분석함으로써 분석에 대한 다양한 시각을 가질 수 있을 것이다.
다섯째, 빅데이터 시대에는 자료의 실시간 분석 및 예측이 많이 사용된다. 본 서는 통계학에서 사용되는 예측방법론인 시계열분석을 포함하고 있다. 본 서를 공부하면 기초적인 예측방법론을 이해하고 적용할 수 있을 것이다.
여섯째, 딥러닝의 기초인 분류분석도 포함되어 있다. 본 서를 공부하면 인공지능 분야에서 많 이 사용되는 딥러닝 공부에도 많은 도움이 될 것이다.
일곱째, 빅데이터 시스템에서 채택하고 있는 하둡(Hadoop)에 대해서도 설명이 되어 있다. 이 책을 따라하면 하둡의 작동방법도 이해를 할 수 있다. 하둡은 리눅스에서 구동되기 때문에 이에 필요한 리눅스도 설명되어 있다. 본 서를 공부하면 빅데이터 시스템 기초를 이해하여 계속하여 공부하면 거의 실시간 시스템을 구축할 수 있을 것으로 기대된다.
저자소개
저자 : 류귀열
저자 : 류귀열
류귀열 교수는 서울대학교 자연과학대학 계산통계학과를 졸업하고, 서울대학교 계산통계학과에서 시계열분석으로 박사학위를 받고, 3년간 한국통신 연구소에서 재직하였다. 현재 서경대학교 소프트웨어학과 교수로 재직 중이다.
학위취득 초기에는 통신활성화를 위한 통신정책을 연구하였다가, 이후 20여년 동안은 이와 병행하여 소프트웨어 개발 및 지도에 힘썼다.
최근에는 빅데이터 시스템구축 및 개발에 올인하고 있다.
목차
Chapter 01 R 소개
1 서론
2 R 설치하기
3 R언어 기초
4 데이터 구조
5 데이터 입출력
6 공공데이터 사이트 데이터 받기
Chapter 02 데이터분석 기초
1 RStudio 사용법
2 기초적 통계분석
3 기술통계2: 정량적 자료요약
Chapter 03 데이터 시각화
1 ggplot2 패키지를 이용하여 그래프 그리기
2 ggplot2 환경설정
3 ggplot2를 이용한 산점도 응용
4 ggplot2를 이용한 그래프 그리기
Chapter 04 확률 입문
1 확률이란?
2 확률 계산법칙
3 조건부 확률
4 베이즈 정리
5 이산 확률분포
6 연속 확률분포
Chapter 05 추정 및 검정
1 표본분포
2 구간추정
3 가설검정
Chapter 06 분산분석
1 두 모집단 평균차이(μ?1-μ?2)에 대한 추정: ?σ?1 과 ?σ?2 를 알고 있을 때
2 두 모집단 평균차이에 대한 추정과 검정: 대응표본
3 분산분석
Chapter 07 선형회귀분석
1 단순 선형회귀분석(simple linear regression analysis)
2 잔차분석을 통한 타당성 검정
3 중회귀분석(Multiple Regression Analysis)
4 중회귀모형에서 변수 선택방법
5 다중공선성 문제(Multicolinearity Problem)
6 이상치(Outlier) 제거
7 더미변수를 이용한 회귀분석
8 로지스틱 회귀분석(Logistic Regression)
Chapter 08 시계열분석
1 시계열 패턴
2 수평패턴 예측
3 추세패턴 예측
4 계절패턴 예측
5 추세와 계절 패턴
Chapter 09 분류분석(Classification Analysis)
1 의사결정나무(Decision Tree)
2 k-means 분류
Chapter 10 리눅스 입문
1 리눅스(Linux)란?
2 리눅스 설치: CentOS 리눅스 리눅스의 기본 명령어
Chapter 11 하둡
1 빅데이터란?
2 하둡의 생태계
3 자바설치
4 하둡(Hadoop) 설치
5 WordCount 실습
6 완전분산 모드 설치