README.md 3.51 KB

KNU 한국어 감성사전

작성자 : 온병원, 박상민, 나철원 작성일 : 2018.05.11 소속 : 군산대학교 소프트웨어융합공학과 Data Intelligence Lab 홈페이지 : http://dilab.kunsan.ac.kr/

<> 개요

  • 음식, 여행지, 영화, 음악, 자동차, 스마트폰, 강의, 컴퓨터 등 특정 도메인에서 사용되는 긍부정어보다는 인간의 보편적인 기본 감정 표현을 나타내는 긍부정어로 구성된다. 보편적인 긍정 표현으로는 ‘감동받다’, ‘가치 있다’, ‘감사하다’와 보편적인 부정 표현으로는 ‘그저 그렇다’, ‘도저히 ~수 없다’, ‘열 받다’ 등을 둘 수 있다.
  • 각 도메인의 감성사전을 빠르게 구축하기 위한 기초 자료로 활용하기 위해 개발되었음
  • 본 한국어 감성사전은 다음과 같은 소스로부터 통합되어 개발되었음 (1) 국립국어원 표준국어대사전의 뜻풀이(glosses) 분석을 통한 긍부정 추출(이 방법을 통해 대부분의 긍부정어 추출) (2) 김은영(2004)의 긍부정어 목록 (3) SentiWordNet 및 SenticNet-5.0에서 주로 사용되는 긍부정어 번역 (4) 최근 온라인에서 많이 사용되는 축약어 및 긍부정 이모티콘 목록
  • 총 14,843개의 1-gram, 2-gram, 관용구, 문형, 축약어, 이모티콘 등에 대한 긍정, 중립, 부정 판별 및 정도(degree)값 계산

<> 특징

  • 표준국어대사전을 구성하는 각 단어의 뜻풀이를 분석하여 긍부정어를 추출하였음
  • 1-gram, 2-gram, n-gram(어구, 문형), 축약어, 이모티콘 등의 다양한 종류의 긍부정어 포함
  • 영화, 음악, 자동차 등 어떤 도메인에도 사용될 수 있는 보편적인 긍부정어로 구성

<> 한국어 감성사전 개발 방법

  • 표준국어대사전을 구성하는 형용사, 부사, 동사, 명사의 모든 뜻풀이에 대한 긍정, 중립, 부정으로 분류하기 위해 Bi-LSTM 딥 러닝 모델 사용
  • Bi-LSTM 모델은 각 뜻풀이의 확률 값을 계산하여 최종적으로 300,000개에 달하는 뜻풀이를 긍정, 중립, 부정으로 분류하며, 긍정으로 분류된 뜻풀이 그룹에서 top-2500 긍정어 추출하며, 비슷한 방식으로 top-2500 부정어 추출 (상위 2,500개의 뜻풀이만을 대상으로 긍부정어를 찾는 이유는 2,500개 이상 넘어가면 기추출된 긍부정어들이 반복적으로 추출되기 때문)
  • 최소 3명의 평가자들이 각 단어의 긍정, 중립, 부정을 판별하고, 이의가 있을 경우 토론을 통해 합의를 이루는 방식 사용 (voting 방식)
  • 각 단어의 긍부정 판별은 (1) 매우 부정 (2) 부정 (3) 중립 (4) 긍정 (5) 매우 긍정 등 리커트 척도를 이용하여 평가자들의 합의를 통해 선택

<> 긍부정어 통계

긍부정어 : 단어개수

1-gram 긍부정어 : 6,223 2-gram 긍부정어 : 7,861 긍부정 어구 : 278 긍부정 문형 : 253 긍부정 축약어 : 174

긍부정 이모티콘 : 54

1-gram 긍부정어 : 6,451 2-gram 긍부정어 : 8,135 3-gram 긍부정어 : 226 4-gram 긍부정어 : 20 5-gram 긍부정어 : 5 6-gram 긍부정어 : 3 7-gram 긍부정어 : 2

8-gram 긍부정어 : 1

매우 긍정 : 2,597 긍 정 : 2,266 중 립 : 154 부 정 : 5,029 매우 부정 : 4,797

<> 사용 방법

  • knusl.py파일 실행
  • 단어 입력을 통해 해당 단어의 행태소 및 극성 정도값 출력

<> 참고문헌 [1] 표준국어대사전 뜻풀이, https://github.com/mrchypark/stdkor [2] 긍부정 축약어, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%ED%84%B0%EB%84%B7_%EC%8B%A0%EC%A1%B0%EC%96%B4_%EB%AA%A9%EB%A1%9D [3] 긍부정 이모티콘, https://ko.wikipedia.org/wiki/%EC%9D%B4%EB%AA%A8%ED%8B%B0%EC%BD%98 [4] SentiWordNet_3.0.0_20130122, http://sentiwordnet.isti.cnr.it/ [5] SenticNet-5.0, http://sentic.net/ [6] 감정단어사전0603, http://datascience.khu.ac.kr/board/bbs/board.php?bo_table=05_01&wr_id=91 [7] 김은영, “국어 감정동사 연구”, 2004.02, 학위논문(박사) - 전남대학교 국어국문학과 대학원 [8] 트위터 형태소 분석기, https://github.com/twitter/twitter-korean-text