데이터분석/통계기반

빅분기 실기 R,Python 베이스라인, 기본코드

Ninestar 2022. 12. 12. 12:03
반응형

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다.

아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다.

R

# 라이브러리 추가
library(randomForest)

# 데이터 불러오기
X_train<-read.csv("../input/big-data-analytics-certification-kr-2022/train.csv")
X_test<-read.csv("../input/big-data-analytics-certification-kr-2022/test.csv")

# ID컬럼 버림
train<-X_train[,-1]
test<-X_test[,-1]

# 학습 및 예측
m2_rf<-randomForest(Segmentation~.,train,ntree=200)
p2_rf<-predict(m2_rf,test)

# csv 파일 만들기
result<-cbind(as.character(df_test[,1]),as.character(p2_rf))
colnames(result)<-c("ID","Segmentation")
write.csv(result,"수험번호.csv",row.names=F)

 

 

Python

# 라이브러리 추가
import pandas as pd
import sklearn
from sklearn.ensemble import RandomForestClassifier

# 데이터 불러오기
X_test = pd.read_csv("data/X_test.csv")
X_train = pd.read_csv("data/X_train.csv")
y_train = pd.read_csv("data/y_train.csv")

# ID 컬럼 버림
X_train.drop('id',axis=1,inplace=True)
X_test.drop('id',axis=1,inplace=True)

# 학습 및 예측
model = RandomForestClassifier() 
model.fit(X_train, y_train['Outcome'])
predictions = model.predict(X_test)

# csv 파일 만들기
result = pd.DataFrame({'idx': X_test.index, 'Outcome': predictions})
result.to_csv('수험번호.csv', index=False)