R로 배우는 데이터과학
1
Index
2
Data Type and Structure
2.1
R을 사용하기 위한 기본 지식 정리
2.1.1
작업디렉토리 설정
2.1.2
패키지 설치 및 사용
2.1.3
도움말 사용
2.2
변수(Variable)
2.2.1
숫자(Numeric)
2.2.2
문자()
2.2.3
팩터 (factor)
2.2.4
논리형(Logical)
2.2.5
날짜타입(Date and Datetime)
2.2.6
NA/NaN/Inf 확인 및 처리
2.3
데이터 구조(Data Structure)
2.3.1
벡터 (Vector)
2.3.2
리스트(List)
2.3.3
행렬(Matrix)
2.3.4
데이타프레임(Data Frame)
2.3.5
데이터 변환
3
Flow-control
3.1
흐름제어
3.1.1
if문
3.1.2
ifelse문
3.1.3
else if문
3.1.4
연습문제
3.1.5
for문
3.1.6
while 문
3.1.7
while-next 문
3.1.8
repeat 문
3.2
연산자
4
Function
4.1
함수
4.2
함수의 호출 특성
4.3
변수의 스코프(Scope)
4.4
[연습문제 #2]
5
Input and Output
5.1
Excel 파일 다루기
5.1.1
Excel 읽기
5.1.2
Excel Sheet 지정 하여 읽기
5.1.3
Excel 의 다양한 읽기 형태
5.1.4
CSV, TEXT 파일 읽기
6
Basic Statistics
6.1
정형화된 데이터의 종류
6.2
위치 추정
6.2.1
평균
6.2.2
절사평균
6.2.3
중앙값
6.2.4
가중평균
6.2.5
가중 중앙값
6.3
변위 추정
6.3.1
표준편차(Standard Deviation)
6.3.2
사분위범위(IRQ)
6.3.3
중위절대편차(MAD)
6.4
데이터분포
6.4.1
사분위수(Quantile)
6.4.2
상자그림(Boxplot)
6.4.3
도수 분포표(Frequency Table)
6.4.4
히스토 그램
6.4.5
밀도추정(부드러운 히스토그램)
7
Data transformation 1
7.1
plyr 패키지와 dplyr 패키지 성능 차이
7.2
Data 변환 전에
7.3
apply 계열의 함수들
7.3.1
apply( )
7.3.2
행 또는 열의 합 또는 평균 계산 함수
7.3.3
lapply( )함수
7.3.4
unlist 함수
7.3.5
do.call 함수
7.3.6
sapply 함수
7.3.7
tapply 함수
7.4
dplyr 패키지
7.4.1
flights 데이터셋의 간략한 설명
7.4.2
Filter 사용하기
7.4.3
Logical 연산자
7.4.4
arrange 를 이용한 정렬
7.4.5
select 를 이용한 데이터 선택
7.4.6
year 와 day 사이에 있는 컬럼 제외
7.4.7
mutate 로 데이터 생성 및 수정
7.4.8
summarize 로 집계 하기
7.5
SQL 이용한 관계형 데이터 처리
7.6
mutating 조인을 이용한 관계형 데이터 처리
7.6.1
데이터 살펴보기
7.6.2
Key
7.6.3
조인 실습을 위한 작은 데이터셋 만들기
7.6.4
Mutating Join ? 왜?
7.6.5
Join 이해하기
7.6.6
Inner Join (내부조인)
7.6.7
Outer Join (외부조인)
7.6.8
중복키
7.6.9
Join키 정의 하기
7.6.10
flights 테이블 조인 실습 하기1
7.6.11
필터링 조인 (세미조인 & 안티조인)
8
Data Transpormation 2
8.1
tidy 데이터
8.2
gather 로 데이터 모으기
8.3
spread 로 데이터 펼치기
8.3.1
gather 와 spread 가 조금 다른 이유
8.4
Seperate와 Unite
8.4.1
seperate 로 나누기
8.4.2
unite 로 합치기
8.5
NA(결측값) 처리하기
8.5.1
결측 처리 기본
8.5.2
NA(결측) 처리 자동화
8.6
공공데이터 포털 가입 하고 API 키 얻기
8.6.1
회원 가입
8.6.2
일반회원으로 가입
8.6.3
회원가입을 위한 정보 입력
8.6.4
이용약관 동의
8.6.5
정보입력
8.6.6
회원가입 완료
8.6.7
“국토부 실거래가”" 로 API 검색
8.6.8
“아파트매매 실거래 상세 자료” -> 활용신청
8.6.9
활용신청 상세
8.6.10
신청현황 / 결과
8.6.11
API 정보 확인
8.7
API를 이용해 국토부 아파트매매 실거래가 가져오기
8.7.1
전체 코드
8.8
shiny
8.9
API를 이용한 국토부 실거래가 조회2
8.9.1
파일 불러오기
8.9.2
특정 구의 시군구 코드 알아내기
8.9.3
구군 명을 넣으면 구군코드를 반환하는 함수 만들기
8.10
Google 지도를 이용한 부동산 정보 시각화
9
ggplot visualization
9.1
ggplot 옵션 익히기
9.1.1
mpg 데이터
9.1.2
기본 그래프 생성 문법
9.1.3
ggplot 문법 기본
9.1.4
간단한 그래프 그리기
9.1.5
선그래프 추가하기
9.1.6
X, Y 각 축에 값 제한 하기
9.1.7
그래프 확대 하기
9.1.8
타이틀 및 축라벨 변경
9.1.9
색상과 점의 크기 조정
9.1.10
조건기반 색상 표시
9.1.11
그룹별로 색상 표시하기
9.1.12
col 인자에 명기 하는 경우
9.1.13
Mark 의 모양 변경
9.1.14
Legend 없애기
9.1.15
Legend 테마 변경하기
9.1.16
색상 팔레트 종류
9.1.17
축간격 조정 하기
9.1.18
X축 역변환 하기
9.1.19
축라벨에 커스터마이징
9.1.20
테마를 사용해서 한번에 변경
9.1.21
Scatter Plot(산점도)
9.1.22
jitter plot
9.1.23
Count Plot
9.1.24
가장자리 분포 그래프 추가
9.1.25
Correlogram
9.1.26
Bar 그래프
9.1.27
Stacked Bar Plot (누적 막대 그래프)
9.1.28
Facet
9.1.29
Position 조정
9.1.30
Pie 차트
9.2
kaggle 데이터를 이용한 EDA 실습
9.2.1
bike sharing demand 데이터셋 설명
9.2.2
기본 그래프 생성
9.2.3
ggthemr 적용하기
9.3
correlation 그래프 생성
9.4
plot.ly 이용해서 interactive 그래프 그리기
10
Modeling
10.1
Regression Model (회귀모형)
10.1.1
Univariate Linear Regression (단변량 선형회기모형)
10.1.2
Multivariate Linear Regression (다변량 선형회기모형)
10.1.3
Polynomial Regression (다항 선형회기모형)
10.2
Classification Model (분류모형)
10.2.1
Logistic Regression
10.2.2
K-Nearest Neighbors(K-NN)
10.2.3
Support Vector Machine(SVM)
10.2.4
Decision Tree Classification
10.2.5
Random Forrest Classfication
10.3
Clustering 군집 모델
10.3.1
K-Means Clustering
10.4
Gradient Boosting 실습
10.4.1
데이터 및 패키지 로딩
10.4.2
레이블 변환
10.4.3
훈련 및 테스트 데이터 분할
10.4.4
xgb.DMatrix 오브젝트로 변환
10.4.5
주요 파라메터 설정
10.4.6
모델 훈련 시키기
10.4.7
테스트 데이터로 스코어링
10.4.8
Identify the class with the highest probability for each prediction
10.4.9
모델 성능 측정
Dangtong Github Pages
R로 배우는 데이터과학
R로 배우는 데이터과학
Dangtnog Byun
2021-03-28
Chapter 1
Index