반응형
이전 발행 글들
2022.11.10 - [크롤링하기] - [파이썬 크롤링] 유튜브 댓글 crawl #1 google api client 라이브러리 위해 api-key 설정하기
2022.11.10 - [크롤링하기] - [파이썬 크롤링] 유튜브 댓글 crawl #2 객체 알아보기 - 동영상 제목 저장하기
목차
I. API key 생성하기
II. request결과를 이용해 동영상 제목 저장하기
III. commentThreads()를 활용해 댓글 정보 저장하기
이전 글에 저장된 video id를 활용해서 comment정보를 끌어올 수 있다.
comments_22 = []
for video_id in df_22['id']:
api_obj = build('youtube', 'v3', developerKey=api_key)
response = api_obj.commentThreads().list(part='snippet', videoId=video_id, maxResults=100).execute()
while response:
for item in response['items']:
comment = item['snippet']['topLevelComment']['snippet']
comments_22.append([video_id, comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount']])
if 'nextPageToken' in response:
response = api_obj.commentThreads().list(part='snippet', videoId=video_id, pageToken=response['nextPageToken'], maxResults=100).execute()
else:
break
df1 = pd.DataFrame(comments_22, columns=['id', 'comment', 'author', 'comment_date', 'num_likes'])
df_22 = df_22.reset_index()
sampro_22 = pd.merge(df_22, df1, on='id', how='outer')
댓글이 무척 많기 떄문에 nextPageToken을 활용하는 것이 중요하다.
아래와 같은 댓글 정보를 크롤링할 수 있다.
반응형
'파이썬 > 크롤링하기' 카테고리의 다른 글
[파이썬 크롤링] 유튜브 댓글 crawl #2 객체 알아보기 - 동영상 제목 저장하기 (0) | 2022.11.10 |
---|---|
[파이썬 크롤링] 유튜브 댓글 crawl #1 google api client 라이브러리 위해 api-key 설정하기 (0) | 2022.11.10 |