Machine Learning36 랜덤 포레스트(Random forest) 배깅(bagging)의 개념을 다시 살펴보면 같은 알고리즘으로 여러개의 분류기를 만드는 알고리즘입니다. 배깅의 대표적인 알고리즘은 랜덤 포레스트(Random forest)가 있습니다. 랜덤 포레스트(Random forest)란? 랜덤 포레스트는 결정 트리를 기반으로 하는 알고리즘입니다. 랜덤 포레스트는 여러 개의 결정 트리 분류기가 배깅을 기반으로 각자의 데이터를 샘플링 하여 학습을 수행한 후에 최종적으로 보팅을 통해 예측 결정을 하게 됩니다. 랜덤 포레스트는 부트스트래핑(bootstrapping) 방식으로 분할 합니다. 그렇기 때문에 중첩되게 샘플링이 됩니다. 부트스트래핑(bootstrapping): 여러개의 데이터 세트를 중첩되게 분리하는 방식 ▷ 사이킷런에서는 RandomForestClassifie.. 2020. 4. 26. 앙!상블 앙상블 학습이란? 앙상블학습(Ensemble Learning)은 여러 개의 분류기(Classifier)를 생성하고 계측을 결합하면서 최종적으로 보다 정확한 예측을 도출하는 기법을 말합니다. 대표적인 예시로는 랜덤 포레스트, 그래디언트 부스팅 알고리즘이 있습니다. 앙상블 학습의 목표는 다양한 분류기의 예측 결과를 결합하면서 단일 분류기보다 신뢰성이 높은 예측값을 얻는 것입니다. 앙상블 학습의 유형 앙상블 학습은 보팅(Voting), 배깅(Bagging), 부스팅(Boosting) 세가지도 나눌 수 있습니다. 보팅과 배깅은 여러개의 분류기로 투표를 통해서 최종 예측 결과를 결정하는 방식입니다. 그렇다면 두개의 차이점은 무엇일까요?? 바로! 보팅은 서로 다른 알고리즘을 가진 분류기를 결합하고, 배깅은 각가의 .. 2020. 4. 21. 결정 트리 실습(사용자 행동 인식 데이터) UCI에서 제공하는 사용자 행동 인식 데이터를 사용해서 결정 트리 알고리즘 실습을 해보겠습니다. 이 데이터는 사람들에게 스마트폰 센서를 장착시킨 후에 사람의 동작과 관련된 여러 가지 피처를 수집한 데이터입니다. In import pandas as pd import matplotlib.pyplot as plt %matplotlib inline # feature.txt 파일은 index와 피처명이 공백으로 분리되어 있어 다음과 같이 sep으로 할당시켜 불러와 줘야 함. feature_name_df = pd.read_csv('./human_activity/features.txt', sep='\s+', header=None, names = ['column_index', 'column_name']) feature.. 2020. 4. 19. 결정 트리(Decision Tree) 지도학습은 정답이 있는 데이터가 주어진 상황에서 학습하는 ML 알고리즘의 방식입니다. 지도학습의 대표적인 유형중 하나인 분류(Classfication)는 학습 데이터의 피처와 레이블값을 ML 알고리즘으로 학습하고, 학습한 모델에 새로운 값이 주여졌을 때 미지의 레이블 값을 예측하는 것입니다. 결정 트리란?? 결정 트리(Decision Tree)는 ML 알고리즘 중에서 직관적으로 이해하기 쉬운 알고리즘입니다. 데이터에 있는 규칙을 학습을 통해서 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것입니다. 쉽게 비유를 하자면 스무고개와 유사한 방식으로 if, else를 기반으로 예측을 위한 규칙을 만든다고 생각하면 됩니다. 결정 트리에서는 데이터의 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될.. 2020. 4. 16. 이전 1 ··· 4 5 6 7 8 9 다음