ReadMe.txt
4.53 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
KNU 한국어 감성사전
작성자 : 온병원, 박상민, 나철원
작성일 : 2018.05.11
소속 : 군산대학교 소프트웨어융합공학과 Data Intelligence Lab
홈페이지 : http://dilab.kunsan.ac.kr/
<> 개요
- 음식, 여행지, 영화, 음악, 자동차, 스마트폰, 강의, 컴퓨터 등 특정 도메인에서 사용되는 긍부정어보다는 인간의 보편적인 기본 감정 표현을 나타내는 긍부정어로 구성된다. 보편적인 긍정 표현으로는 ‘감동받다’, ‘가치 있다’, ‘감사하다’와 보편적인 부정 표현으로는 ‘그저 그렇다’, ‘도저히 ~수 없다’, ‘열 받다’ 등을 둘 수 있다.
- 각 도메인의 감성사전을 빠르게 구축하기 위한 기초 자료로 활용하기 위해 개발되었음
- 본 한국어 감성사전은 다음과 같은 소스로부터 통합되어 개발되었음
(1) 국립국어원 표준국어대사전의 뜻풀이(glosses) 분석을 통한 긍부정 추출(이 방법을 통해 대부분의 긍부정어 추출)
(2) 김은영(2004)의 긍부정어 목록
(3) SentiWordNet 및 SenticNet-5.0에서 주로 사용되는 긍부정어 번역
(4) 최근 온라인에서 많이 사용되는 축약어 및 긍부정 이모티콘 목록
- 총 14,843개의 1-gram, 2-gram, 관용구, 문형, 축약어, 이모티콘 등에 대한 긍정, 중립, 부정 판별 및 정도(degree)값 계산
<> 특징
- 표준국어대사전을 구성하는 각 단어의 뜻풀이를 분석하여 긍부정어를 추출하였음
- 1-gram, 2-gram, n-gram(어구, 문형), 축약어, 이모티콘 등의 다양한 종류의 긍부정어 포함
- 영화, 음악, 자동차 등 어떤 도메인에도 사용될 수 있는 보편적인 긍부정어로 구성
<> 한국어 감성사전 개발 방법
- 표준국어대사전을 구성하는 형용사, 부사, 동사, 명사의 모든 뜻풀이에 대한 긍정, 중립, 부정으로 분류하기 위해 Bi-LSTM 딥 러닝 모델 사용
- Bi-LSTM 모델은 각 뜻풀이의 확률 값을 계산하여 최종적으로 300,000개에 달하는 뜻풀이를 긍정, 중립, 부정으로 분류하며, 긍정으로 분류된 뜻풀이 그룹에서 top-2500 긍정어 추출하며, 비슷한 방식으로 top-2500 부정어 추출 (상위 2,500개의 뜻풀이만을 대상으로 긍부정어를 찾는 이유는 2,500개 이상 넘어가면 기추출된 긍부정어들이 반복적으로 추출되기 때문)
- 최소 3명의 평가자들이 각 단어의 긍정, 중립, 부정을 판별하고, 이의가 있을 경우 토론을 통해 합의를 이루는 방식 사용 (voting 방식)
- 각 단어의 긍부정 판별은 (1) 매우 부정 (2) 부정 (3) 중립 (4) 긍정 (5) 매우 긍정 등 리커트 척도를 이용하여 평가자들의 합의를 통해 선택
<> 긍부정어 통계
---------------------------
긍부정어 : 단어개수
---------------------------
1-gram 긍부정어 : 6,223
2-gram 긍부정어 : 7,861
긍부정 어구 : 278
긍부정 문형 : 253
긍부정 축약어 : 174
긍부정 이모티콘 : 54
---------------------------
1-gram 긍부정어 : 6,451
2-gram 긍부정어 : 8,135
3-gram 긍부정어 : 226
4-gram 긍부정어 : 20
5-gram 긍부정어 : 5
6-gram 긍부정어 : 3
7-gram 긍부정어 : 2
8-gram 긍부정어 : 1
---------------------------
매우 긍정 : 2,597
긍 정 : 2,266
중 립 : 154
부 정 : 5,029
매우 부정 : 4,797
<> 사용 방법
- knusl.py 파일과 SentiWord_info.json 파일을 동일한 위치에 위치시키고 knusl.py파일 실행
- 단어 입력을 통해 해당 단어의 행태소 및 극성 정도값 출력
<> 참고문헌
[1] 표준국어대사전 뜻풀이, https://github.com/mrchypark/stdkor
[2] 긍부정 축약어, https://ko.wikipedia.org/wiki/%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98_%EC%9D%B8%ED%84%B0%EB%84%B7_%EC%8B%A0%EC%A1%B0%EC%96%B4_%EB%AA%A9%EB%A1%9D
[3] 긍부정 이모티콘, https://ko.wikipedia.org/wiki/%EC%9D%B4%EB%AA%A8%ED%8B%B0%EC%BD%98
[4] SentiWordNet_3.0.0_20130122, http://sentiwordnet.isti.cnr.it/
[5] SenticNet-5.0, http://sentic.net/
[6] 감정단어사전0603, http://datascience.khu.ac.kr/board/bbs/board.php?bo_table=05_01&wr_id=91
[7] 김은영, “국어 감정동사 연구”, 2004.02, 학위논문(박사) - 전남대학교 국어국문학과 대학원
[8] 트위터 형태소 분석기, https://github.com/twitter/twitter-korean-text