ADP 모의고사 R 실습

통계분석 - 실습데이터 Carseats

JiHun
통계분석 (사용 데이터 : Carseats) # Urban 변수에 따른 Sales의 차이가 있는지를 통계적으로 검증하기 위한 통계분석을 수행하고, # 결과를 해석하시오. (데이터는 정규성을 만족한다고 가정하고 유의수준 0.05하에서 검정) ## 데이터 불러오기 install.packages("ISLR") library(ISLR) data(Carseats) car <- Carseats str(car) # 'data.frame': 400 obs. of 11 variables: # $ Sales : num 9.5 11.22 10.06 7.4 4.15 ... # $ CompPrice : num 138 111 113 117 141 124 115 136 132 132 .

정형 데이터 마이닝 - 타이타닉

JiHun
정형 데이터 마이닝 - 타이타닉 library(dplyr) setwd("C:/ADP/data") # 데이터 불러오기 titanic <- read.csv("titanic.csv") summary(titanic) # cabin, embarked의 "" -> NA 바꾸기 # embarked # factor 형태로 변환 titanic$embarked <- as.factor(titanic$embarked) levels(titanic$embarked) # [1] "" "C" "Q" "S" # "" -> NA 변환 levels(titanic$embarked)[1] <- NA table(titanic$embarked,useNA = "always") # C Q S <NA> # 270 123 914 2 # cabin titanic$cabin <- ifelse(titanic$cabin=="",NA,titanic$cabin) table(titanic$cabin,useNA = "always") summary(titanic) # pclass survived name sex age # Min.

비정형 텍스트 마이닝 - 사용데이터 기생충

JiHun
# KoNLP 설치 writeLines('PATH="${RTOOLS40_HOME}\\usr\\bin;${PATH}"', con = "~/.Renviron") usethis::edit_r_environ() Sys.which("make") install.packages("rJava") install.packages("remotes") remotes::install_github('haven-jeon/KoNLP', upgrade = "never", INSTALL_opts=c("--no-multiarch")) useSejongDic() install.packages(c("stringr", "hash", "tau", "Sejong", "RSQLite", "devtools"), type = "binary") library(KoNLP) library(plyr) library(tm) library(rJava) library(wordcloud) useSejongDic() setwd("C:/ADP/data") movie <- readLines("영화 기생충_review.txt") dic <- readLines("영화 기생충_사전.txt") buildDictionary(ext_dic = "woorimalsam", user_dic = data.frame(readLines("영화 기생충_사전.txt"),"ncn"),replace_usr_dic = T) # KoNLP 패키지를 설치하고 useSejongDic 사전을 호출하였다. readLines 함수를 활용하여 # '영화 기생충_review.txt' 파일을 movie 데이터에, '영화 기생충_사전.txt' 파일을 dic 데이터에 저장했다.

통계분석 Admission

JiHun
# 종속변수인 Chance_of_Admit(입학 허가 확률)와 독립변수(GRE, TOEFL, Univ_Rating, SOP, # LOR, CGPA)에 대해 피어슨 상관계수를 이용한 상관관계 분석을 수행하고 그래프를 이용하여 # 분석결과를 설명하시오. # 작업 디렉토리 설정 setwd("C:/ADP/data") # 데이터 불러오기 adms <- read.csv("Admission.csv") str(adms) head(adms) tail(adms) sum(is.na(adms)) # NA값이 존재하는지 확인 # 종속변수인 Chance_of_Admit(입학 허가 확률)과 독립변수(GRE, TOEFL, Univ_Rating, # SOP, LOR, CGPA)에 대해 피어슨 상관분석을 각각 수행한다. # 1. GRE와 Chance_of_Admit 간의 상관분석 str(adms) cor(adms$GRE,adms$Chance_of_Admit) # 피어슨 상관계수 산출 # [1] 0.

ADP 1회 모의고사 R 정형 데이터 마이닝 실습-2

JiHun
setwd("C:/ADP/data") fifa <- read.csv("FIFA.csv") str(fifa) # na 값이 존재하는지 확인 sum(is.na(fifa)) # Height 변수의 피트, 인치 단위로 저장된 키 값을 cm 단위의 값으로 변환하기 # 원활한 연산을 위해 Height 변수를 문자형으로 변환 fifa$Height <- as.character(fifa$Height) # "'" 앞의 숫자는 피트이며, "'" 뒤의 숫자는 인치를 의미함 # 따라서, "'" 앞 숫자를 추출하여 30을 곱하고, "'" 뒤 숫자를 추출하여 2.5를 곱한 뒤 # 숫자를 더하여 cm 단위 값으로 변환 # regexpr 함수는 text 내에서 패턴이 가장 먼저 나오는 위치 찾는 함수로 분석에 활용 as.

ADP 1회 모의고사 R 정형 데이터 마이닝 실습

JiHun
# R 정형 데이터 마이닝 실습(사용 데이터 : lotto) setwd("C:/ADP/data") lot <- read.csv("lotto.csv") str(lot) sum(is.na(lot)) ## 트랜잭션 데이터로 변환 ## 데이터 형태 변환을 위한 패키치 설치 및 로드 install.packages("reshape2") library(reshape2) ### melt 함수를 이용하여 데이터 변환 lot_melt <- melt(lot, id.vars=1) # melt 함수를 이용해 열에 있던 회차별 추첨번호 데이터를 행으로 이동 lot_melt2 <- lot_melt[,-2] # 추첨순서를 의미하는 열(원데이터의 변수명)을 삭제한 후 lot_melt2 변수에 저장 str(lot_melt2) # 변환된 데이터의 형태 확인 ### 트랜잭션 데이터 생성을 위한 패키지 설치 및 로드 install.

정형 데이터마이닝 blackfriday

JiHun
setwd("c:/ADP/data") BlackFriday <- read.csv("BlackFriday.csv") str(BlackFriday) # 'data.frame': 537577 obs. of 12 variables: # $ User_ID : int 1000001 1000001 1000001 1000001 1000002 1000003 1000004 1000004 1000004 1000005 ... # $ Product_ID : chr "P00069042" "P00248942" "P00087842" "P00085442" ... # $ Gender : chr "F" "F" "F" "F" ... # $ Age : chr "0-17" "0-17" "0-17" "0-17" ... # $ Occupation : int 10 10 10 10 16 15 7 7 7 20 .