분류 전체보기153 통계에서 말하는 로버스트하다? 통계 공부를 하다가 "로버스트(robust)하다" 라는 말을 접하게 되었습니다. 무슨 뜻인지 모르겠어서 우선 단어의 뜻부터 찾아보니 "건장한"이라는 뜻으로 해석이 되었습니다. 이것만 보고는 감이 잘 안와서 찾아보며 그 의미를 알아보았습니다. 로버스트에 대해 공부를 할때 예제를 생각하며 하니 더 빠르게 이해할 수 있었습니다. 따라서 제가 이해한 방법을 정리하고자 합니다. 먼저, 로버스트를 정의해보면 다음과 같습니다. 로버스트(robust) : "극단값들에 예민, 민감하지 않다"라고 표현을 해볼 수 있습니다. 예를들어서 한 마을에 사는 사람들의 소득이 각각 11, 14, 12, 13 이라고 가정을 해보겠습니다. 그렇다면 이 마을 평균 소득은 12.5가 됩니다. 그런데 만약에 엄청난 부자가 이 동네에 이사를 .. 2021. 2. 8. 빵가게 장바구니 데이터 분석(Apriori 알고리즘) 데이터 설명 한 빵가게의 장바구니 데이터 입니다. 데이터는 2507개 이며 4개의 컬럼으로 구성되어 있습니다. 각 컬럼별 의미는 다음과 같습니다. 데이터는 캐글 데이터를 사용하였습니다. Transaction: 각 주문에 대한 고유한 값입니다. Item: 제품의 종류 즉 제품명을 의미합니다. date_time: 구매날짜와 시간대를 의미합니다. period_day: 구매 시간대를 카테고리 형태로 표현하였습니다('morning', 'afternoon', 'evening', 'night') weekday_weekend: 주문한 날이 평일인지 주말인지를 의미합니다. 분석 방법 ✔️ EDA 탐색적 데이터 분석을 통해 빵가게 구매의 특징들을 알아봅니다. ✔️ Apriori 알고리즘을 사용한 연관분석 진행 연관분석의 .. 2021. 2. 4. 연관규칙분석(Apriori 알고리즘) 추천시스템에 관심을 가지게 되면서 추천시스템에 배경에 대해 알게되었습니다. 지금은 딥러닝을 이용하는 많은 알고리즘이 나왔지만 오늘은 추천시스템의 1세대라고 할 수 있는 Apriori 알고리즘에 대해서 정리하고자 합니다. 우리는 연관규칙을 할때 효율적으로 탐색하는것이 중요합니다. 왜일까요?? 연관규칙의 개수는 Item 개수가 증가함에 따라서 지수적으로 증가하게 됩니다. 우리는 Item 수가 10개만 된다고 해도 규칙은 57002개가 생성이 됩니다. 즉 계산량이 엄청 복잡해지고 많아지게 되며 시간 또한 오래 걸리게 됩니다. 이러한 경우를 대비하여 "평가 측도"를 기준으로 계산량과 속도를 줄일 수 있습니다. 연관규칙에 관한 글은 다음글에서 https://jaaamj.tistory.com/113 확인할 수 있습.. 2021. 2. 4. 연관분석(Association Analysis)과 평가 측도 연관분석(Association Analysis)이란? 룰기반의 모델로 상품과 상품사이에 어떤 연관이 있는지 찾아내는 알고리즘입니다. 여기서 말하는 연관이란?? - 얼마나 같이 구매가 되지? - A아이템을 구매하면 B아이템을 구매하는가?? 다음 두가지 정도로 생각해볼 수 있습니다. 연관분석은 어떤 상품들이 한 장바구니 안에 담기는지 살피는지 모습과 비슷하기 때문에 장바구니 분석이라고 표현하기도 합니다. 가장 유명한 사례로 월마트 사례가 있습니다. 월마트에서는 맥주를 구매할때 기저귀를 같이 구매한다는 규칙을 발견해서 둘을 함께 진열하는 전략을 세웠다고 합니다. 이런 연관분석을 측정하기 위해서는 평가지표들이 필요합니다. 평가지표에는 지지도, 신뢰도, 향상도가 있습니다. 이 3가지에 대해 알아보도록 하겠습니다... 2021. 2. 3. 이전 1 ··· 16 17 18 19 20 21 22 ··· 39 다음