코랩에서 캐글 데이터를 분석할때 캐글에서 데이터를 다운받은 후 코랩 경로로 저장시켜 분석을 진행하였다. 이 과정이 조금 귀찮다?는 생각이 들어서 코랩과 캐글 연동에 관해 찾아보니 역시 연동을 하는 방법이 있었다. 까먹지 않기 위해 정리해보도록 하자.
1. 캐글 계정에서 API 다운 받기
먼저 캐글 사이트에 로그인을 한 후 Accoount 메뉴를 선택합니다.
Create New API Token 을 클릭하여 토큰 파일을 다운받습니다. 해당 파일은 json 파일 입니다.
2. Token 파일 업로드
!pip install kaggle
from google.colab import files
files.upload()
다음 코드를 코랩화면에서 입력합니다.
실행을 하면 다음과 같은 화면이 뜨는데 파일 선택을 누르고 위에서 다운 받았던 토큰 파일을 넣어 줍니다.
ls -1ha kaggle.json
파일이 잘 업로드 되었는지 확인을 하기 위해서 다음 코드를 실행했을때 파일명이 제대로 뜬다면 성공입니다. 저는 "kaggle.json"이라고 출력되었습니다.
3. json 파일 이동시키기
: Kaggle API 를 사용하기 위해서는 json 파일을 ~/.kaggle로 이동 시키는 작업이 필요합니다.
!mkdir -p ~/.kaggle
!cp kaggle.json ~/.kaggle/
# Permission Warning이 발생하지 않도록 해줍니다.
!chmod 600 ~/.kaggle/kaggle.json
# 내가 참가한 대회 리스트 확인
!kaggle competitions list
4. 데이터셋 불러오기
이제 다시 캐글 사이트로 이동하는데, 자신이 다운 받기 원하는 링크로 이동합니다.
New Notebook 옆에 점 3개를 클릭 후 Copy API command 를 선택합니다. 그럼 자동으로 해당 API가 복사됩니다.
다시 코랩화면으로 돌아가서 ! 뒤에 복사한 API를 입력해 줍니다.
# 예시
! kaggle competitions ~~~~~~~
!ls
이제 다음 코드를 실행하면 다운 받아진 데이터의 항목들을 볼 수 있습니다.
# 예시:
!unzip train.zip
마지막으로 zip 파일로 다운된 데이터의 압축을 풀어주는 작업이 필요합니다. 보통 다운 받은 데이터들은 zip 파일로 구성되어 있습니다.
왼쪽 파일 목록들을 보니 파일들이 잘 다운되었습니다. 실제 데이터를 로드해보면 아주 잘 들어왔습니다!!
'Data Analysis' 카테고리의 다른 글
클럽하우스 사용자 중 팔로워는 누가 많을까? (3) | 2021.05.11 |
---|---|
웹사이트 간단히 구현하기 (0) | 2021.03.21 |
Tidy Data(깔끔한 데이터) (1) | 2021.03.18 |
연관규칙분석(Apriori 알고리즘) (1) | 2021.02.04 |
연관분석(Association Analysis)과 평가 측도 (0) | 2021.02.03 |