4월_24일-checkpoint.ipynb
3.15 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# <4월 20일 ~ 4월 24일>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n",
"(1) 플레이DB 웹크롤링 -> 에러처리, csv파일로 옮기기 남음\n",
"\n",
"(2) **tf-idf**로 키워드 추출 고려 <br/>\n",
" -> 줄거리가 짧아서 단어 빈도수가 커야 6정도 ==> 따라서 장르별 대표작들 줄거리를 모아서 해보기로 계획\n",
"\n",
"(3) **word2vec**로 문맥이 비슷한 단어 파악하려했지만<br/>\n",
" ->학습 시간이 오래걸리는 문제 <br/>\n",
" ->단어 관계 파악 후에 어떻게 처리할지 고민,,<br/>\n",
"\n",
"---"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# <다음주 계획>"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"\n",
"-장르별 키워드 생각(크롤링x, 생각대로) <br/>\n",
"ex) 로맨스 = ['사랑','연인','애틋',........]<br/>\n",
"-가볍게 테스트<br/>\n",
"\n",
"\n",
"### 테스트 결과가 잘 나온다면,, 장르별 키워드 추출 모델 만들기\n",
"#### (잘 나오지 못하면,, 새로운 방법 고려)\n",
"---\n",
"\n",
"(1-1) **불용어 대표 사전 제작**<br/>\n",
"\n",
"- 뮤지컬정보관련된거 ('뮤지컬','제작사','콘텐츠', 뮤지컬이름, '창작','티켓', '매진'....)<br/>\n",
"- 고유 명사<br/>\n",
"- 시간관련 명사, 부사 모든것, (시작 ,나이, '최초','전날' '작년', OOOO년 OO월 OO일, '당시')<br/>\n",
"- 장소는 애매,, ('감옥'이런 장소는 유의미,,)(그런데 지명은 무의미)<br/>\n",
"- 감정이 아닌 단어 예를 들면 ('표현', '세상',...) <br/>\n",
"- 흔한 불용어('우리' ,,)<br/>\n",
"- 한국어가 아닌 단어(한자, 영어)<br/>\n",
"\n",
"(1-2) **장르 대표작 30편씩 고르기**<br/>\n",
"=> 장르별 대표작 30편씩은 줄거리 + 그 이외 기사, 대본 가능한대로 긁어와..<br/>\n",
"\n",
"*키워드 추출은 불용어 사전을 통해 불필요한 단어를 제외하고, 나머지 단어들의 사용된 빈도를 기준으로함.<br/>\n",
"*이때 키워드를 사전 api와 비교해서 나오지 않는것은 이름으로 간주하고 제거.<br/>\n",
"\n",
"(1-3) 장르 대표작들을 통해 **‘장르별 대표 키워드 사전 만들기’** => 이때 키워드가 포함된 문장도 추출<br/>\n",
"(왜냐하면 word2vec을 사용하려면 문장 필요)<br/>"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.6"
}
},
"nbformat": 4,
"nbformat_minor": 2
}