본문 바로가기

전체 글153

추천시스템 글 hoondongkim.blogspot.com/2019/03/recommendation-trend.html 추천(Recommendation) 시스템 - 알고리즘 Trend 정리 BigData / AI 기술과 각종 정보를 공유하는 김훈동의 블로그 입니다. hoondongkim.blogspot.com 좋아보임 읽어야지 2021. 3. 21.
[비정형 데이터] 중심화 경향 값 Introduction 비정형데이터분석 과목을 수강하며 공부한 내용을 정리하는 포스팅입니다. 해당글은 순천향대학교 빅데이터공학과 우지영 교수님이 진행하시는 "비정형데이터분석" 강의를 기반으로 작성되었습니다. 비정형 데이터를 분석할때 원본 데이터로는 어떠한 특징을 파악하기 어려운 경향이 있습니다. 따라서 우리는 원본 데이터에서 대표하는 값들을 활용하여 분석하는 것이 필요합니다. 일반적으로 우리는 통계치들을 활용해서 대표값들을 추출할 수 있습니다. 데이터의 종류에 대한 도메인 지식이 포함된다면 통계치 의외에도 다른 의미있는 값들을 추출할 수 있습니다. 지금은 도메인 지식이 없다고 가정을 하고 일반적으로 많이 사용하는 통계치들에 대해 알아보도록 하겠습니다. 크게 중심화 경향, 퍼짐 정도, 분포형태와 대칭정도로.. 2021. 3. 21.
Tidy Data(깔끔한 데이터) 비정형데이터 과목을 수강하면서 교수님께서 Tidy Data를 언급하셨다. 데이터 분석을 하기 위해서는 Tidy Data 즉, 깔끔한 데이터가 필요하다. 이러한 깔끔한 데이터 형태를 만들기 위해서는 우리는 데이터 전처리, 변환등의 과정을 거치게 되는데 실제로 이 단계에서 정말 많은 시간이 소요된다. 그만큼 중요하다는 의미도 있다. Tidy Data가 깔끔한? 정리된? 데이터라고는 알고있었지만, 좀 더 정확한 의미와 정의를 알아보고 싶어 찾아보았다. 찾아보면서 Tidy Data와 관련한 논문이 있어 그 논문을 리뷰하는 형태로 Tidy Data에 대해 정리하고자 한다. 리뷰해볼 논문은 Hadley Wickham의 논문이다. 먼저, 논문에서는 말하고 있는 Tidy Data에 대해 한줄로 정의를 하자면 다음과 같.. 2021. 3. 18.
추천시스템 활용 예시 추천시스템이 활용되고 있는 사례들에 알아보도록 하겠습니다. 정말 많은 곳에서 활용이 되고 있지만 제가 실제로 경험하고 있으면서 가장 대표적인 사례들로 정리해 보았습니다. [넷플릭스] : 나에게 어울리는 콘텐츠 추천 먼저 넷플릭스입니다. 넷플릭스는 전세계적으로 많은 사람들이 사용하고 있는 상품중 하나입니다. 추천시스템의 가장 대표적인 예시중 하나입니다. 넷플릭스는 내가 시청한 목록들을 분석한 내용을 바탕으로 내가 좋아할말한 작품들을 추천해주게 됩니다. 실제로 저도 넥플릭스를 시청하고 있는데 저에게 맞지 않은 작품들도 있었지만 저의 흥미에 맞는? 상품들도 있었습니다. [쿠팡] : 다양한 상품을 추천 두번째로 쿠팡입니다. 저는 쿠팡을 정말 많이 사용하는데요 위에 보는 사진처럼 쿠팡에서는 내가 구매한 상품을 바.. 2021. 3. 16.
SQL(Structured Query Language) 종류 SQL(Structured Query Language) -SQL은 관계형 데이터베이스에 대해서 데이터의 구조를 정의, 조작, 제어 등을 할 수 있는 절차형 언어 -관계형 데이터베이스는 데이터베이스를 연결하고 SQL문을 사용해 데이터베이스를 누구나 쉽게 사용할 수 있도록 함 -SQL은 ANSI/ISO 표준을 준수하기 때문에 데이터베이스 관리 시스템이 변경되어도 그대로 사용할 수 있음 SQL 종류 * DDL(Data Definition Language) 관계형 데이터베이스의 구조를 정의하는 언어 테이블을 생성하거나 변경, 삭제함 CREATE, ALTER, DROP, RENAME * DML(Data Manipulation Language) 테이블에서 데이터를 입력, 수정, 삭제, 조회함 INSERT, UPDA.. 2021. 3. 15.
관계형 데이터베이스(Relation Database) 관계형 데이터베이스(Relation Database) 관계형 데이터베이스의 등장 1970년대 E.F. Codd박사 논문에서 처음 소개되었다. 릴레이션과 릴레이션의 조인 연산을 통해서 합집합, 교집합, 차집합 등을 만들 수 있다. Oracle, MS-SQL, MySQL, Sybase 등의 관리 시스템 있다. 데이터베이스와 데이터베이스 관리 시스템의 차이점 데이터베이스는 데이터를 어떤 형태의 자료구조로 사용하느냐에 따라서 나누어진다. 계층형 데이터베이스는 트리(Tree)형태의 자료구조에 데이터를 저장하고 관리한다. 계층형 데이터베이스는 1대 N관계를 표현한다. 네트워크는 오너와 멤버 형태로 데이터를 저장한다. 네트워크 데이터베이스는 1대N과 N대N으로 표현 가능하다. 관계형 데이터베이스는 릴레이션에 데이터를.. 2021. 3. 15.