DataScience
728x90

전처리,튜닝 하나도 없이 train셋으로 학습, test셋 예측후 제출만 하셔도 기본점수는 받으실 수 있습니다.

아래 코드가 베이스라인 코드이며 여기에 전처리과정, 다양한모델 생성, 하이퍼파라미터 튜닝등 살을 붙이면 훌륭한 예측모델이 될 것입니다.

R

<r />
# 라이브러리 추가 library(randomForest) # 데이터 불러오기 X_train<-read.csv("../input/big-data-analytics-certification-kr-2022/train.csv") X_test<-read.csv("../input/big-data-analytics-certification-kr-2022/test.csv") # ID컬럼 버림 train<-X_train[,-1] test<-X_test[,-1] # 학습 및 예측 m2_rf<-randomForest(Segmentation~.,train,ntree=200) p2_rf<-predict(m2_rf,test) # csv 파일 만들기 result<-cbind(as.character(df_test[,1]),as.character(p2_rf)) colnames(result)<-c("ID","Segmentation") write.csv(result,"수험번호.csv",row.names=F)

 

 

Python

<python />
# 라이브러리 추가 import pandas as pd import sklearn from sklearn.ensemble import RandomForestClassifier # 데이터 불러오기 X_test = pd.read_csv("data/X_test.csv") X_train = pd.read_csv("data/X_train.csv") y_train = pd.read_csv("data/y_train.csv") # ID 컬럼 버림 X_train.drop('id',axis=1,inplace=True) X_test.drop('id',axis=1,inplace=True) # 학습 및 예측 model = RandomForestClassifier() model.fit(X_train, y_train['Outcome']) predictions = model.predict(X_test) # csv 파일 만들기 result = pd.DataFrame({'idx': X_test.index, 'Outcome': predictions}) result.to_csv('수험번호.csv', index=False)

 

'데이터분석 > 통계기반' 카테고리의 다른 글

분산분석(ANOVA Analysis) (F-검정)  (0) 2022.12.12
왜도, 첨도, 히스토그램, 기술통계랑  (0) 2022.12.12
집단간 차이분석  (1) 2022.12.12
교차분석과 카이제곱 검정  (1) 2022.12.12
기술통계분석  (2) 2022.12.12
profile

DataScience

@Ninestar

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!