본문 바로가기

전체 글153

[비정형 데이터 분석] 분포형태와 대칭정도(distribution, symmetry) Introduction 비정형데이터분석 과목을 수강하며 공부한 내용을 정리하는 포스팅입니다. 해당글은 순천향대학교 빅데이터공학과 우지영 교수님이 진행하시는 "비정형데이터분석" 강의를 기반으로 작성되었습니다. 지난 포스팅에 이어서 오늘은 분포형태와 대칭정도(distribution)에 대해서 알아보도록 하겠습니다. 분포형태와 대칭정도(distribution) (1) 왜도(Skewness) 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표 정규분포 또는 t분포처럼 대칭인 분포들은 왜도가 0이게 됩니다. 대칭이 아니면 왜도의 값은 어떻게 달라질까요? 왜도에는 다음과 같이 Postive Skew, Negativw Skew 두가지 종류가 있습니다. 보통 오른쪽으로 꼬리가 긴, 왼쪽으로 꼬리가 긴이라고 많이 .. 2021. 3. 23.
[비정형 데이터 분석] 퍼짐 정도(dispersion) Introduction 비정형데이터분석 과목을 수강하며 공부한 내용을 정리하는 포스팅입니다. 해당글은 순천향대학교 빅데이터공학과 우지영 교수님이 진행하시는 "비정형데이터분석" 강의를 기반으로 작성되었습니다. 지난 포스팅에 이어서 오늘은 퍼짐 정도(dispersion)에 대해서 알아보도록 하겠습니다. 퍼짐 정로란 무엇일까요?? 단어에서도 느껴지듯이 자료가 얼마나 퍼져있는지 얼마나 모여있고, 얼마나 흩어져 있는지 등을 의미합니다. 이 퍼짐 정도를 나타내주는 대표적인 통계치들에 대해 알아보도록 하겠습니다. 퍼짐 정도(dispersion) (1) 분산 분산은 평균에 대한 편차 제곱의 평균을 구한 값 먼저 편차는 평균과의 차이를 의미합니다. 그렇기 때문에 편차의 합은 0이 됩니다. 그렇기 때문에 분산을 구하기 위.. 2021. 3. 23.
[Oracle VS Mysql] 나머지 구하기 해커랭크에서 SQL 관련 문제를 풀면서 알게된 부분을 정리합니다. 해당 문제는 ID가 짝수인 나라를 구하는데 중복을 제거해서 구하는 문제이다. 나는 Mysql 설정해서 문제를 풀고 있었는데 계속해서 답이 맞는데 틀리다고 했다. 찾아보니 오라클에서 사용하는 문법을 Mysql에서 사용하고 있었다. 까먹지 않기 위해서 해당 부분들을 정리하려고 한다. 오라클에서 나머지 구하는 함수 /* oracle */ SELECT DISTINCT CITY FROM STATION WHERE MOD(ID, 2) = 0; 오라클에서는 다음과 같이 MOD함수를 사용해서 나머지를 구할 수 있다. Mysql에서 나머지 구하는 함수 /* mysql */ SELCT distinct city FROM station WHERE id%2=0; .. 2021. 3. 22.
하이브리드 추천 시스템(Hybrid Recommender System) 협업 필터링(Collaborative Filtering)과 콘텐츠 기반 필터링(Content-based Filtering)은 각각 단점들이 존재합니다. 단점에 대한 자세한 부분들은 다음 포스팅에서 확인할 수 있습니다. 두가지 추천시스템의 장점들을 합하면 더 좋은 알고리즘이 나오지 않을까? 라는 아이디어를 시작으로 만들어진 추천 시스템이 바로 Hybrid Recommender System입니다. Hybrid Recommender System이란 ? 협업 필터링(Collaborative Filtering) 콘텐츠 기반 필터링(Content-based Filtering)을 조합한 새로운 알고리즘입니다. 협업 필터링은 콜드 스타트의 문제가 존재합니다. 이 문제를 해결하기 위해서 하이브리드 추천 시스템은 신규 콘.. 2021. 3. 22.
구글 코랩과 캐글 연동하기 코랩에서 캐글 데이터를 분석할때 캐글에서 데이터를 다운받은 후 코랩 경로로 저장시켜 분석을 진행하였다. 이 과정이 조금 귀찮다?는 생각이 들어서 코랩과 캐글 연동에 관해 찾아보니 역시 연동을 하는 방법이 있었다. 까먹지 않기 위해 정리해보도록 하자. 1. 캐글 계정에서 API 다운 받기 먼저 캐글 사이트에 로그인을 한 후 Accoount 메뉴를 선택합니다. Create New API Token 을 클릭하여 토큰 파일을 다운받습니다. 해당 파일은 json 파일 입니다. 2. Token 파일 업로드 !pip install kaggle from google.colab import files files.upload() 다음 코드를 코랩화면에서 입력합니다. 실행을 하면 다음과 같은 화면이 뜨는데 파일 선택을 누르.. 2021. 3. 22.
웹사이트 간단히 구현하기 youtube.com/watch?v=JLVB8ZUPojw&feature=share Streamlit이라는 패키지를 사용해서 간단하게 웹페이지를 만들어준다고 한다. 신기하다!! 아직 실습을 안해봤는데 해봐야징 아직은 불안정하지만 기대가 많이 된다고 하네욤 2021. 3. 21.