Search
🎞️

영화 리뷰 분석 미니 프로젝트

Table of Contents
네이버 영화 리뷰를 분석한 미니 프로젝트

1. 목적

관객들이 영화에 대해서 어떠한 의견을 가지고 있는지 파악하기 위해 관객 리뷰를 분석하고자 하였습니다.
영화 리뷰를 부정에 가까운 리뷰긍정에 가까운 리뷰로 분류하고, 각각의 입장에서 어떠한 키워드들이 도출되는지 확인하고자 하였습니다.
반어법적인 리뷰 또한 긍정으로 분류 될 확률이 높기 때문에, 영화에 대한 감성이 어느정도 수치화되는 ‘평점’을 기준으로 판별하였습니다 (ex. 참~ 재밌네^^, 아주 걸작이다! 등등)
상위 키워드들을 워드클라우드로 시각화하여, 각각의 리뷰에서 가장 많이 나오는 키워드들을 한 눈에 파악하고자 하였습니다.

2. 주요 프로세스

네이버 영화 리뷰에서 10,000개 리뷰 크롤링
데이터 전처리 (결측값 제거, 중복값 제거, 컬럼명 변경)
평점을 기준으로 긍정/부정 리뷰를 구분하여 ‘부정 → 0’, ‘긍정 → 1’로 그룹화
koNLpy(한국어 파이썬 패키지) Okt 한글 형태소 분석기를 활용하여 명사를 추출(nouns 함수 활용)
부정리뷰와 긍정리뷰의 키워드를 확연하게 나타내기 위해 상위 중복 단어 제거
워드클라우드를 활용하여 도출된 상위 키워드를 시각화

3. 결과

긍정리뷰와 부정리뷰에서 각각 가장 많이 사용되었던 키워드를 도출 하였는데, 리뷰의 종류 또는 장르와 상관없이 영화’, ‘평점’, ‘스토리등 영화에 대한 감상평을 적기 위해 지칭해야하는 보조 키워드, 그냥’, ‘진짜’와 같이 자신의 의견을 강하게 전달하기 위한 부사어가 공통적으로 상단을 차지하고 있었습니다.
<예: 킹스맨 Top 20 긍정리뷰 키워드>
<예: 킹스맨 Top 20 부정리뷰 키워드>
부정 키워드와 긍정 키워드를 확연하게 확인하기 위해 부정리뷰와 긍정리뷰에서 중복되는 top10 키워드를 도출하여 삭제해주었습니다.
<예: 킹스맨 Top10 중복 키워드>
아래 왼쪽은 ‘정제된 긍정리뷰 키워드’를, 오른쪽은 ‘정제된 부정리뷰 키워드’를 워드클라우드로 시각화한 결과 입니다. 중복 키워드를 제거 해주었더니 극명하게 차이를 확인할 수 있었습니다.
긍정리뷰
공통적으로 ‘최고’, ‘꿀잼’과 같은 감성 평가와, 영화에서 임팩트 있게 등장하는 키워드나 영화의 특성을 나타내는 키워드가 상단을 차지했습니다.
킹스맨:콜린퍼스(주인공을 도와주는 인물), 매너(명대사: 매너가 사람을 만든다)’
인사이드 아웃:감정(감정들이 캐릭터화가 되어 등장함), 애니메이션 ,픽사
듄:티모시(영화를 통해 화제가 된 인물)’
‘킹스맨’과 ‘인사이드 아웃’이 대부분 가볍게 즐기는 킬링타임용 영화라는 평가를 받는 반면, ‘듄’의 경우 전설이라는 평가를 받는 소설을 1974년부터의 노력 끝에 만든 심오한 내용의 영화입니다. 이 때문인지 단순하게 영화에 자주 등장하는 키워드 뿐만 아니라 ‘영상미’, ‘연기’, ‘압도와 같은 영화 자체에 대한 감상평이 더 두드러지게 나타난 듯 합니다.
부정리뷰
'최악, 별로, 노잼,’ 과 같은 감성 평가, ‘알바, 취향, 돈, 자막, 더빙'과 같은 영화 내에서 등장하는 것들과는 거리가 먼 키워드가 상위권을 차지했습니다.
킹스맨
액션, 스릴
인사이드 아웃 애니메이션, 코미디
결과적으로, 긍정/부정리뷰에서 공통적으로 감성평가 키워드가 상단을 차지하는 것을 알 수 있었습니다. 이외에 긍정 리뷰어들은 대부분 영화 내에서 긍정적으로 생각됐던 부분을 언급하느라 영화와 직접적으로 관련있는 내용이나 특징들을 키워드로 언급하는 경우가 많았습니다. 반면에, 부정 리뷰어들은 영화와 직접적으로 관련된 내용보다는 영화를 보고 난 이후의 기분을 묘사하거나, 영화가 얼마나 별로였는지 표현하기 위한 부수적인 키워드들을 주로 사용하는 경향이 있다는 것을 알 수 있었던 프로젝트였습니다.