분류 전체보기153 [R] 통계 모형 깔끔하게 출력하기(broom) 지금까지 공부를 하면서는 다음과 같이 모델을 생성하고 평가하는데 summary() 함수를 많이 사용했다. 회귀분석을 예시로 생각해보자. 회귀분석 후에 우리는 예측 값, 잔차, r.squared등 살펴봐야 할 값들이 많다. m|t|) (Intercept) -17.5791 6.7584 -2.601 0.0123 * speed 3.9324 0.4155 9.464 1.49e-12 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 15.38 on 48 degrees of freedom Multiple R-squared: 0.6511,Adjusted R-squared: 0.6438 F-statist.. 2021. 9. 17. 데이터 증감(Gan) https://blog.testworks.co.kr/importance_of_gan_in_ai_dataset_building/ 2021. 9. 17. 데이터는 어떻게 자산이 되는가? 이지스퍼블리싱을 통해 서평단 기회가 생겼다. 리뷰할 책은 "데이터는 어떻게 자산이 되는가?" 현재 나는 빅데이터공학과를 전공으로 데이터 분석가로 성장하기 위해 공부하는 학생이다. 미래의 데이터 분석가로 일을 하고 있을 나에게 도움이 많이 될만한 책이라는 생각이 들었다. 지금까지는 데이터를 분석하는 방법에 대해서만 배웠다. 이 책에서는 실제 기업에서는 이 데이터를 바탕으로 어떻게 자산화를 시키는지 그 방법에 대해서 알려준다. 큰 목차는 다음과 같다. - 첫째마당: 데이터 자본주의가 온다 - 둘째마당: 데이터 경제만이 살길이다 - 셋째마당: 데이터를 자산화하라 - 넷째마당: 데이터 생태계를 구축하라 나름(?) 전공자이기 때문에 아는 내용이 많을 것이라고 생각했는데, 새롭게 배운 내용이 많았다!! 큰 목차별로.. 2021. 9. 16. Leverage vs Influence 선형회귀에서의 이상치, Leverage, Influence에 대해서 정리해보자... 먼저 이상치는 다른 데이터들보다 멀리 떨어져 있는 값으로 극단값이라고 부른다. 이상치를 제거했을때 우리가 추정한 회귀선이 크게 변하게 된다면?? 이 값은 영향력이 있는 점이라고 할 수 있다. 다시 말하자면 Influence가 high 하다라고 말할 수 있다. 두 그래프를 비교해보자. 두개의 회귀선은 이상치를 포함 o, 포함 x를 의미한다. 왼쪽그래프는 이상치가 있고 없고에 따라서 회귀선의 차이가 약간 있다. 반면에 오른쪽 그래프는 이상치에 따라서 회귀선이 많이 변함을 볼 수 있다. 따라서 두개의 이상치중에서 왼쪽 이상치는 Some Influence를 가지고 오른쪽 이상치는 High Influence를 가진다고 할 수 있다.. 2021. 9. 12. 이전 1 2 3 4 5 6 7 ··· 39 다음