전체 글153 사이킷런으로 시작하는 머신러닝 - Model Selection 모듈(2)- 2-2 Stratified K 폴드 - Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분해하여 줍니다. Stratified K 폴드는 불균형한 분포를 가진 레이블들을 위한 방식입니다. 불균형한 분포: 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다. 먼저 붓꽃 데이터의 레이블 값들의 분포도를 확인해 보도록 하겠습니다. In import pandas as pd iris=load_iris() iris_df=pd.DataFrame(data=iris_data,columns=iris.feature_names) iris_df['label']=iris.target iris_df['label'].valu.. 2020. 4. 9. 사이킷런으로 시작하는 머신러닝 - Model Selection 모듈(1)- 파이썬 머신러닝 완벽 가이드: 다양한 캐글 예제와 함께 기초 알고리즘부터 최신 기법까지 배우는/권철민 지음을 참고하여 공부하고 정리하는 스터디 포스팅입니다. Model Selection 모듈 사이킷런의 model_selection 모듈은 학습 데이터와 테스트 데이터를 분리하거나 교차 검증, 그리고 Estimator의 하이퍼 파라미터를 튜닝하기 위해서 다양한 함수와 클래스를 제공해 줍니다. 먼저 전체 데이터를 학습 데이터와 테스트 데이터로 분리해주는 train_test_split()부터 살펴보겠습니다. 1. 학습/테스트 데이터 세트 분리하기 - train_test_split() 테스트 데이터를 사용하지 않고 학습 데이터만 학습하고 예측하면 어떠한 일이 벌어지는지 살펴보겠습니다. In from sklearn.. 2020. 4. 9. 사이킷런으로 시작하는 머신러닝 - 사이킷런의 기반 프레임워크 익히기- 파이썬 머신러닝 완벽 가이드: 다양한 캐글 예제와 함께 기초 알고리즘부터 최신 기법까지 배우는/권철민 지음을 참고하여 공부하고 정리하는 스터디 포스팅입니다. 사이킷런이란? - 사이킷런은 파이썬 머신러닝 라이브러리 중에서도 가장 많이 사용되는 라이브러리입니다. 사이킷럿은 파이썬 기반의 머신러닝을 위한 가장 쉽고 효율적인 라이브러리를 제공하여 줍니다. - 파이썬 기반의 다른 머신러닝 패키지도 사이킷런 스타일의 API를 지향할 정도로 쉬운 API를 제공하여 줍니다. - 머신러닝을 위한 매우 다양한 알고리즘과 개발을 위한 편리한 API를 제공하여 줍니다. - 오랜 기간 실전 황경에서 검증이 되었으며, 매우 많은 환경에서 사용이 되는 성숙한 라이브러리 입니다. In import sklearn print(sklea.. 2020. 4. 9. 데이터프레임(DataFrame) 다루기 ◑_◐ 파이썬 머신러닝 완벽 가이드: 다양한 캐글 예제와 함께 기초 알고리즘부터 최신 기법까지 배우는/권철민 지음을 참고하여 공부하고 정리하는 스터디 포스팅입니다. 데이터프레임(DataFrame) 다루기 ◑_◐¶데이터프레임을 공부하려고 정리하면서 생각보다 내용이 많아서 따로 정리를 하기로 하였습니다. 1. DataFrame의 변환¶지난 포스팅에서는 csv파일을 DataFrame으로 생성하는 방법을 배웠습니다. 기본적으로 데이터프레임은 파이썬의 리스트, 딕셔너리, 넘파이 ndarray 등 다양한 데이터로부터 생성이 될수 있는데요 이번시간에는 이 내용에 대해서 정리해 보도록 하겠습니다. 1-1 ndarray, 리스트, 딕셔너리 → DataFrame으로 변환¶ DataFrame은 행과 열을 가지는 2차원 데이터입니다.. 2020. 4. 7. 판다스(Pandas)의 자료구조 파이썬 머신러닝 완벽 가이드: 다양한 캐글 예제와 함께 기초 알고리즘부터 최신 기법까지 배우는/권철민 지음을 참고하여 공부하고 정리하는 스터디 포스팅입니다. 판다스(Pandas)의 자료구조¶판다스(Pandas)란?¶ 행과 열로 이루어진 2차원 데이터를 효율적으로 가공/처리할 수 있는 다양한 기능을 제공해 줍니다. 넘파이보다 훨씬 유연하고 편리하게 데이터 핸들링을 가능하게 해줍니다. 판다스는 csv등의 파일을 쉽게 DataFrame으로 변경해 데이터의 가공/분석을 편리하게 수행할 수 있게 만들어줍니다. 판다스의 자료구조에는 Series와 DataFrame이 있습니다. 지금부터 두 자료구조에 대해 알아보도록 하겠습니다. 1. 시리즈(Series)¶1-1 시리즈(Series)란?¶ 컬럼이 하나뿐인 즉 1차원 .. 2020. 4. 6. 넘파이(Numpy)에 대해 알아보자! 파이썬 머신러닝 완벽 가이드: 다양한 캐글 예제와 함께 기초 알고리즘부터 최신 기법까지 배우는/권철민 지음을 참고하여 공부하고 정리하는 스터디 포스팅입니다. 1. NumPy(넘파이)란?¶ NumPy는 선형대수 기반의 프로그램을 쉽게 만들 수 있도록 지원하는 대표적인 패키지입니다. NumPy는 배열 기반의 연산에 더해 다양한 데이터 핸들링 기능을 제공해 줍니다. 2. ndarray 클래스¶ 넘파이의 기반 데이터 타입은 ndarray입니다. ndarray를 활용하면 다차원(Multi-dimen-sion)배열을 쉽게 생성할 수 있고 다양한 연산들을 수행할 수 있습니다. ndarray는 같은 종류의 데이터만 배열의 담을 수 있습니다. 2-1 배열 생성하기¶ array() 함수는 다양한 인자를 입력받아서 ndar.. 2020. 4. 3. 이전 1 ··· 22 23 24 25 26 다음