파이썬에서는 같다 라고 선언하면 주소값 까지 같다고 본다. 그래서 추후에 한쪽 변수를 바꿔줘도 다른 한쪽 변수가 변하는 상황이 생긴다. a = [1,2,3] b = a print(id(a)) print(id(b)) 1906865579072 1906865579072 a[1]을 4로 바꿔줫더니 b도 바뀌는 상황이 발생한다. a[1] = 4 print(a) print(b) [1, 4, 3] [1, 4, 3] 위와 같은 상황을 방지하기 위해서 [:] 이용 c=[1,2,3] d=c[:] c[1]=4 print(c) print(d) [1, 4, 3] [1, 2, 3] copy모듈 이용 from copy import copy e=[1,2,3] f=copy(e) e[1]=4 print(e) print(f) [1, 4,..
파이썬은 문자열끼리 덧셈, 곱셈이 가능하다. 다른 언어에서는 상상도 못할 일이다. a='hello' b='world' print(a+b) print(a*5) helloworld hellohellohellohellohello 문자열 인덱싱 자동으로 배열에 추가되서 각각 문자열을 처리하기 편하다 a='hello world' len(a) print(a[3]) #네번째 문자 print(a[-1]) #마지막 문자 print(a[0:3]) #0번째부터 2번째까지 0
3*3.3 9.899999999999999 정수형x실수형 값이 이상하게 나온다. 컴퓨터가 실수를 표현할때 오차가 발생하기 때문인데 decimal, fraction 모듈을 써서 정확히 계산해주면 된다. 0.1 + 0.2 == 0.3 False 또한 두 실수가 같은지 확인할때도 이렇게 하면 안된다. 0.1+0.2 0.30000000000000004 근사값으로 표현하면서 발생함. 부동소수점 반올림 오차라고 함. 두 값이 차이가 sys.float_info.epsilon 보다 작거나 같으면 두 값은 같다고 판단. sys.float_info.epsilon에 저장된 값을 머신 입실론(machine epsilon)이라고 함 단순히 두 값이 같은지 판단할때는 math.isclose 함수를 쓰면 된다. import mat..
인간의 두뇌 신경(뉴런)들이 상호작용하여 경험과 학습을 통해서 패턴을 발견하고 이를 통해서 특정 사건을 일반화하거나 데이터를 분류하는데 이용되는 기계학습방법. 인간의 개입 없이 컴퓨터가 스스로 인지하고 추론하고, 판단하여 사물을 구분하거나 특정 상황의 미래를 예측하는데 이용될 수 있는 기계학습 방법 문자, 음성, 이미지 인식, 증권시장 예측, 날씨 예보 등 다양한 분야에서 활용. (1) 생물학적 신경망 구조 인간의 생물학적 신경망의 구조 수상돌기로부터 외부 신호를 입력받고 시냅스에 의해서 신호의 세기를 결정한 후 이를 세포핵으로 전달하면 입력신호와 세기를 토대로 신경자극을 판정하여 축색돌기를 통해서 다른 신경으로 전달 (2) 인공신경망과 생물학적 신경망의 비교 [그림 15.7] ..
Distributed(Deep) Machine Learning Community(DMLC) group 내 Tianqi Chen에 의한 연구 프로젝트로 시작. the Higgs Machine Learning Challenge 라는 Kaggle challenge에서 우승 solution으로 선정되어 알려졌고, 이후 xgboost를 이용하여 다른 Kaggle 경쟁에서도 다수 우승 (2015년동안 29개 Kaggle challenge 에서 17개의 solution 이 XGBoost를 사용) xgboost: 앙상블 학습기법으로 모델을 생성하는 분류모델 [표 15.6] 배깅과 부스팅 알고리즘 비교 분류 배깅(Bagging) 부스팅(Boosting) 공통점 전체 데이터 셋으로부터 복원추출방식. n개..
1) 오류분류표 분류 분석 모형의 평가에 일반적으로 사용 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표 예측치 합계 True False 실제값 True TP FN P False FP TN N 합계 P' N' P+N • TP(True Positives): 실제값과 예측치 모두 True인 빈도 • TN(True Negatives): 실제값과 예측치 모두 False인 빈도 • FP(False Positives): 실제값은 False이나 True로 예측한 빈도 • FN(False Negatives): 실제값은 True이나 False로 예측한 빈도 2) 오류분류표 활용 모형 평가 지표 (1) 정분류율(accuracy, recognition rate) $$A..
하나의 거래나 사건에 포함된 항목 간의 관련성을 파악하여 둘 이상의 항목들로 구성된 연관성 규칙을 도출하는 탐색적인 분석 방법 “장바구니 분석” 연관성규칙은 지지도(support), 신뢰도(confidence), 향상도(lift)를 평가척도로 사용 연관분석은 구매패턴을 분석하여 고객을 대상으로 상품을 추천하거나 프로모션 및 마케팅 전략을 수립하는데 활용 연관분석 특징 사건의 연관규칙을 찾는 데이터마이닝 기법 y변수가 없으며, 비지도학습에 의한 패턴 분석 방법 거래 사실이 기록된 트랜잭션(Transaction)형식의 데이터 셋을 이용 사건과 사건 간의 연관성을 찾는 방법 예) 기저귀와 맥주(Diapers vs. Beer) 이야기: Karen Heath는 1992년 맥주와 기..