DataScience
728x90

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다.

아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다.

R

# 라이브러리 추가
library(randomForest)

# 데이터 불러오기
X_train<-read.csv("../input/big-data-analytics-certification-kr-2022/train.csv")
X_test<-read.csv("../input/big-data-analytics-certification-kr-2022/test.csv")

# ID컬럼 버림
train<-X_train[,-1]
test<-X_test[,-1]

# 학습 및 예측
m2_rf<-randomForest(Segmentation~.,train,ntree=200)
p2_rf<-predict(m2_rf,test)

# csv 파일 만들기
result<-cbind(as.character(df_test[,1]),as.character(p2_rf))
colnames(result)<-c("ID","Segmentation")
write.csv(result,"수험번호.csv",row.names=F)

 

 

Python

# 라이브러리 추가
import pandas as pd
import sklearn
from sklearn.ensemble import RandomForestClassifier

# 데이터 불러오기
X_test = pd.read_csv("data/X_test.csv")
X_train = pd.read_csv("data/X_train.csv")
y_train = pd.read_csv("data/y_train.csv")

# ID 컬럼 버림
X_train.drop('id',axis=1,inplace=True)
X_test.drop('id',axis=1,inplace=True)

# 학습 및 예측
model = RandomForestClassifier() 
model.fit(X_train, y_train['Outcome'])
predictions = model.predict(X_test)

# csv 파일 만들기
result = pd.DataFrame({'idx': X_test.index, 'Outcome': predictions})
result.to_csv('수험번호.csv', index=False)

 

'데이터분석 > 통계기반' 카테고리의 다른 글

분산분석(ANOVA Analysis) (F-검정)  (0) 2022.12.12
왜도, 첨도, 히스토그램, 기술통계랑  (0) 2022.12.12
집단간 차이분석  (1) 2022.12.12
교차분석과 카이제곱 검정  (1) 2022.12.12
기술통계분석  (2) 2022.12.12
profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!