728x90
전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다.
아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다.
R
# 라이브러리 추가
library(randomForest)
# 데이터 불러오기
X_train<-read.csv("../input/big-data-analytics-certification-kr-2022/train.csv")
X_test<-read.csv("../input/big-data-analytics-certification-kr-2022/test.csv")
# ID컬럼 버림
train<-X_train[,-1]
test<-X_test[,-1]
# 학습 및 예측
m2_rf<-randomForest(Segmentation~.,train,ntree=200)
p2_rf<-predict(m2_rf,test)
# csv 파일 만들기
result<-cbind(as.character(df_test[,1]),as.character(p2_rf))
colnames(result)<-c("ID","Segmentation")
write.csv(result,"수험번호.csv",row.names=F)
Python
# 라이브러리 추가
import pandas as pd
import sklearn
from sklearn.ensemble import RandomForestClassifier
# 데이터 불러오기
X_test = pd.read_csv("data/X_test.csv")
X_train = pd.read_csv("data/X_train.csv")
y_train = pd.read_csv("data/y_train.csv")
# ID 컬럼 버림
X_train.drop('id',axis=1,inplace=True)
X_test.drop('id',axis=1,inplace=True)
# 학습 및 예측
model = RandomForestClassifier()
model.fit(X_train, y_train['Outcome'])
predictions = model.predict(X_test)
# csv 파일 만들기
result = pd.DataFrame({'idx': X_test.index, 'Outcome': predictions})
result.to_csv('수험번호.csv', index=False)
'데이터분석 > 통계기반' 카테고리의 다른 글
분산분석(ANOVA Analysis) (F-검정) (0) | 2022.12.12 |
---|---|
왜도, 첨도, 히스토그램, 기술통계랑 (0) | 2022.12.12 |
집단간 차이분석 (1) | 2022.12.12 |
교차분석과 카이제곱 검정 (1) | 2022.12.12 |
기술통계분석 (2) | 2022.12.12 |