본문 바로가기

전체 글153

[R] 통계 모형 깔끔하게 출력하기(broom) 지금까지 공부를 하면서는 다음과 같이 모델을 생성하고 평가하는데 summary() 함수를 많이 사용했다. 회귀분석을 예시로 생각해보자. 회귀분석 후에 우리는 예측 값, 잔차, r.squared등 살펴봐야 할 값들이 많다. m|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 15.38 on 48 degrees of freedom Multiple R-squared: 0.6511,Adjusted R-squared: 0.6438 F-statist.. 2021. 9. 17.
데이터 증감(Gan) https://blog.testworks.co.kr/importance_of_gan_in_ai_dataset_building/ 2021. 9. 17.
데이터는 어떻게 자산이 되는가? 이지스퍼블리싱을 통해 서평단 기회가 생겼다. 리뷰할 책은 "데이터는 어떻게 자산이 되는가?" 현재 나는 빅데이터공학과를 전공으로 데이터 분석가로 성장하기 위해 공부하는 학생이다. 미래의 데이터 분석가로 일을 하고 있을 나에게 도움이 많이 될만한 책이라는 생각이 들었다. 지금까지는 데이터를 분석하는 방법에 대해서만 배웠다. 이 책에서는 실제 기업에서는 이 데이터를 바탕으로 어떻게 자산화를 시키는지 그 방법에 대해서 알려준다. 큰 목차는 다음과 같다. - 첫째마당: 데이터 자본주의가 온다 - 둘째마당: 데이터 경제만이 살길이다 - 셋째마당: 데이터를 자산화하라 - 넷째마당: 데이터 생태계를 구축하라 나름(?) 전공자이기 때문에 아는 내용이 많을 것이라고 생각했는데, 새롭게 배운 내용이 많았다!! 큰 목차별로.. 2021. 9. 16.
Leverage vs Influence 선형회귀에서의 이상치, Leverage, Influence에 대해서 정리해보자... 먼저 이상치는 다른 데이터들보다 멀리 떨어져 있는 값으로 극단값이라고 부른다. 이상치를 제거했을때 우리가 추정한 회귀선이 크게 변하게 된다면?? 이 값은 영향력이 있는 점이라고 할 수 있다. 다시 말하자면 Influence가 high 하다라고 말할 수 있다. 두 그래프를 비교해보자. 두개의 회귀선은 이상치를 포함 o, 포함 x를 의미한다. 왼쪽그래프는 이상치가 있고 없고에 따라서 회귀선의 차이가 약간 있다. 반면에 오른쪽 그래프는 이상치에 따라서 회귀선이 많이 변함을 볼 수 있다. 따라서 두개의 이상치중에서 왼쪽 이상치는 Some Influence를 가지고 오른쪽 이상치는 High Influence를 가진다고 할 수 있다.. 2021. 9. 12.
좋은 선형 회귀 모델이란?? 좋은 선형 회귀 모델을 만들기 위해서는 좋은 선형 회귀 모델을을 만족해야 합니다. 1) 선형성 : 선형성은 예측하고자 하는 종속변수 Y와 독립변수 X간데 선형성을 만족하는 특성입니다. 만약 선형성을 만족하지 않는다고 한다면 데이터를 변환하는 방법이 필요합니다. 그 종류에는 다음과 같이 존재합니다. 로그 변환 지수 변환 루트 변환 다중 선형회귀를 진행하고 있다면 다른 새로운 변수를 추가하거나, 선형성을 만족하지 않는 변수를 제거하는 방법도 있습니다. 2) 독립성 : 독립성이란 독립변수 X간의 상관관계가 없이 독립성을 만족하는 특성입니다. 다중공선성이라고도 불리는 다시말해 독립변수의 상관관계가 있다면 제거할 필요가 있습니다. 3) 등분산성 : 분산이 동일하다는 의미로, 어떠한 특정한 패턴이 없이 고르게 분포.. 2021. 9. 4.
[R] ggplot2: facet_wrap(집단별로 분할하여 시각화 하기) head(taiwan_real_estate) dist_to_mrt_m n_convenience house_age_years price_twd_msq 1 84.87882 10 30 to 45 11.467474 2 306.59470 9 15 to 30 12.768533 3 561.98450 5 0 to 15 14.311649 4 561.98450 5 0 to 15 16.580938 5 390.56840 5 0 to 15 13.040847 6 2175.03000 3 0 to 15 9.712557 위 데이터는 대만 부동산 데이터이다. 연령대별로 price_twd_msq (주택 가격)을 시각화 하려고 한다. # Using taiwan_real_estate, plot price_twd_msq ggplot(taiwa.. 2021. 9. 1.