Showing
7 changed files
with
129 additions
and
896 deletions
... | @@ -27,26 +27,134 @@ | ... | @@ -27,26 +27,134 @@ |
27 | - 장르 시각화 : matplot, Seaborn 패키지를 통한 시각화 | 27 | - 장르 시각화 : matplot, Seaborn 패키지를 통한 시각화 |
28 | 28 | ||
29 | ## Model | 29 | ## Model |
30 | -- 데이터 수집 : [CMU Movie Summary Corpus][CMU]의 Detaset 42,306개, 뮤지컬 줄거리 255개 | 30 | +- 데이터 수집 : [CMU Movie Summary Corpus][CMU]의 Detaset 42,306개, 뮤지컬 줄거리 307개 |
31 | - 데이터 전처리 : Detaset 토큰화, 불용어 처리 후 정수 인코딩 | 31 | - 데이터 전처리 : Detaset 토큰화, 불용어 처리 후 정수 인코딩 |
32 | -- 데이터 분석 : 의사결정나무 모델, RNN, k-nearest neighbor < 연구중 | 32 | +- 데이터 분석 : lstm |
33 | - 데이터 검증 : k-fold 교차검증을 활용하여 장르별 정확도를 확인 | 33 | - 데이터 검증 : k-fold 교차검증을 활용하여 장르별 정확도를 확인 |
34 | -- 데이터 시각화 : 분석된 장르를 장르 단어 분포도로 시각화한다. | 34 | +- 데이터 시각화 : 분석된 뮤지컬 데이터를 장르 단위로 시각화한다. |
35 | - | 35 | + |
36 | - | 36 | +## 과제 수행 |
37 | - | 37 | +### 데이터 수집 |
38 | -## Schedule | 38 | +[ 장르 분류 모델 학습 데이터 ] |
39 | - | 39 | + 모델 학습을 위한 데이터는 뮤지컬 줄거리로는 양이 충분하지 못해 뮤지컬과 줄거리가 비슷한 영화 데이 터를 활용했습니다. http://www.cs.cmu.edu/~ark/personas/에서 영화 줄거리(영어) 데이터를 42,306개 수집했 습니다. |
40 | -__3월__ | 40 | + |
41 | - - 주제 선정 | 41 | + |
42 | - | 42 | +* 수집한 영화 줄거리 태깅 일부 : 각 영화 줄거리에는 데이터 제공 사이트에서 미리 장르를 다양하게 태깅 된 상태였습니다. |
43 | -__4월__ | 43 | + |
44 | - - 뮤지컬 줄거리 웹 크롤링 | 44 | + |
45 | - - 테스트 데이터 라벨링 | 45 | + |
46 | - | 46 | + 미리 태깅되어 있는 장르를 [‘romance’, ’fantasy’ ,‘thriller’, ‘drama’, ’ history’ , ‘social’ , ‘#N/A’] 같이 6개의 장르로 재분류했습니다. |
47 | -__5월__ | 47 | + |
48 | - - 데이터 전처리 | 48 | + |
49 | - + 토큰화 (완료) | 49 | + |
50 | - + 라벨링 (진행중) | 50 | + 재분류 방법은 위 표처럼 직접 모든(364개) 장르를 확인하며 위 6가지 정해놓은 장르 중 가장 유사한 장르 를 선택했습니다. 장르 분류가 애매한 경우는 ‘#N/A’으로 처리했습니다. 이러한 방법을 364개의 장르를 재 태깅했습니다. |
51 | - | 51 | + |
52 | - | 52 | +재태깅된 장르를 기반으로 줄거리를 6가지 장르로 분류해서 장르별 csv파일로 추출했습니다 |
53 | + | ||
54 | + | ||
55 | +[ 모델 테스트 데이터 ] | ||
56 | + 브로드웨이 뮤지컬 줄거리를 크롤링을 통해 수집했습니다. 크롤링한 웹사이트는 https://broadwaymusicalhome.com/shows.htm 입니다. 총 307건의 줄거리를 크롤링하였습니다. (Beautifulsoup 패키지를 사용했습니다) | ||
57 | + | ||
58 | +### 데이터 전처리 | ||
59 | + | ||
60 | +[ NLTK 라이브러리 활용 전처리 ] | ||
61 | + 장르가 NULL인 줄거리를 제외하고 약 35,000개의 줄거리 데이터 전처리를 진행했습니다. 이때단어 토큰화, 불용어 제거를 위해 NLTK 자연어처리 라이브러리를 사용했습니다. | ||
62 | +* 전처리 소스코드 일부 (자세한 내용은 주석처리했습니다.) | ||
63 | + | ||
64 | + | ||
65 | + ```from tqdm import tqdm | ||
66 | + all_vocab = {} | ||
67 | + all_sentences = [] | ||
68 | + stop_words = set(stopwords.words('english')) | ||
69 | + | ||
70 | + for i in tqdm(allplot): | ||
71 | + all_sentences = word_tokenize(str(i)) # 단어 토큰화를 수행합니다. | ||
72 | + result = [] | ||
73 | + for word in all_sentences: | ||
74 | + word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다. | ||
75 | + if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다. | ||
76 | + if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다. | ||
77 | + result.append(word) | ||
78 | + if word not in all_vocab: | ||
79 | + all_vocab[word] = 0 | ||
80 | + all_vocab[word] += 1 | ||
81 | + all_sentences.append(result) | ||
82 | + | ||
83 | + all_vocab_sorted = sorted(all_vocab.items(), key = lambda x:x[1], reverse = True) | ||
84 | + | ||
85 | + all_word_to_index = {} | ||
86 | + i=0 | ||
87 | + for (word, frequency) in all_vocab_sorted : | ||
88 | + if frequency > 1 : # 빈도수가 적은 단어는 제외한다. | ||
89 | + i=i+1 | ||
90 | + all_word_to_index[word] = i | ||
91 | + vocab_size = 15000 #상위 15000개 단어만 사용 | ||
92 | + words_frequency = [w for w,c in all_word_to_index.items() if c >= vocab_size + 1] # 인덱스가 15000 초과인 단어 제거 | ||
93 | + for w in words_frequency: | ||
94 | + del all_word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제 | ||
95 | + all_word_to_index['OOV'] = len(all_word_to_index) + 1 | ||
96 | + ``` | ||
97 | +[ 전체 줄거리(전체 : 로맨스, 판타지, 스릴러, 역사 줄거리) 단어 인덱스 부여 ] | ||
98 | + 단어 사용 빈도수가 적은 단어는 제외하기 위해서 빈도순으로 인덱스를 부여했습니다. 15,000순위 미만인 단어 정보는 삭제했습니다. | ||
99 | + | ||
100 | + | ||
101 | + | ||
102 | +[ 학습 데이터(= RM_train+TH_train+FN_train+HS_train ) 인코딩 ] | ||
103 | + 총 학습 데이터는 7000개로 ‘로맨스 : 스릴러 : 판타지 : 역사 = 2 : 2 : 2 : 1’의 비율로 맞추었습니다. | ||
104 | +* 인덱스 부여 소스코드 일부 (자세한 내용은 주석 처리했습니다.) | ||
105 | +### 모델 학습 | ||
106 | + | ||
107 | +다중 분류를 위해 순환 신경망 모델을 사용했습니다. | ||
108 | +* LSTM 모델 구현 소스코드 (자세한 설명은 주석 처리했습니다.) | ||
109 | +```from tensorflow.keras.preprocessing.sequence import pad_sequences | ||
110 | +from tensorflow.keras.models import Sequential | ||
111 | +from tensorflow.keras.layers import Dense, LSTM, Embedding | ||
112 | +from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint | ||
113 | +import numpy as np | ||
114 | + | ||
115 | + | ||
116 | +M_test=Mu_encoded | ||
117 | +M_test= np.array(M_test) | ||
118 | +max_len = 230 | ||
119 | +X_train = pad_sequences(X_train, maxlen=max_len) | ||
120 | +X_test = pad_sequences(X_test, maxlen=max_len) | ||
121 | + | ||
122 | +model = Sequential() | ||
123 | +model.add(Embedding(15002, 120)) | ||
124 | +model.add(LSTM(128)) | ||
125 | +model.add(Dense(4, activation='softmax')) | ||
126 | + | ||
127 | +es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=4) | ||
128 | +mc = ModelCheckpoint('best_model.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True) | ||
129 | + | ||
130 | +X_train = np.array(X_train) | ||
131 | +Y_train = np.array(Y_train) | ||
132 | +X_test = np.array(X_test) | ||
133 | +Y_test = np.array(Y_test) | ||
134 | + | ||
135 | +model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['acc']) | ||
136 | +model.fit(X_train, Y_train, validation_data=(X_test, Y_test), epochs=7, batch_size=64, callbacks=[es, mc]) | ||
137 | +``` | ||
138 | + | ||
139 | + 뮤지컬 데이터로 테스트 결과 많은 뮤지컬 작품이 로맨스로 분류된 것을 확인하였고, 스릴러가 가장 적은 비율로 분류된것을 확인했습니 다. | ||
140 | +[ 실제 줄거리와 비교 ] | ||
141 | +* 오페라의 유령 뮤지컬 줄거리의 장르를 예측한 결과 아래와 같이 로맨스로 정확하게 분류되었습니다. 오 페라의 유령같이 장르 특징이 뚜렷한 줄거리의 경우는 항상 정확한 분류가 이루어지는 것을 확인했습니다. | ||
142 | + | ||
143 | +## 기대효과 및 활용방안 | ||
144 | +공식 티켓 판매처(인터파크, 예스 24공연 등)에도 뮤지컬 장르구분은 존재하지 않았습니다. 이런 사이트에서 축적된 공연 데이터를 통해 더 정확한 장르 구분을 한다면 일반인들의 뮤지컬에 대한 관심과 접근성을 높 일 수 있을것으로 기대합니다. 또한, 국내 창작 뮤지컬에 로맨스 뮤지컬 뿐만 아니라 다양한 장르가 존재함 을 알릴 수 있을 것입니다. 또한, 분류된 결과를 데이터베이스에 구축하고 웹사이트를 구현하면 뮤지컬 장 르 체계화에 도움이 될 것입니다. | ||
145 | + | ||
146 | +## 결론 및 제언 | ||
147 | +이진 분류의 경우(예시- 로맨스 vs 판타지)에는 테스트이렇 데이터 정확도가 80%에 이르며 높은 정확도를 보였습니다. 하지만 다중 분류(4개)의 경우에 학습한 경우 정확도가 최대 63%까지만 이르며 모델의 성능을 높이지 못했습니다. 원인으로 첫째, 학습한 줄거리 데이터의 길이가 짧아 내용이 불충분한 경우가 있습니다. 둘째, 줄거리 길이는 충분하지만 분류를 위한 특성을 추출하기 어려운 단어가 많은 경우가 있었습니다. | ||
148 | + | ||
149 | +프로젝트 진행 초반에는 한글 줄거리로 국내 뮤지컬 장르를 분류하고자 했습니다. 하지만 국내 뮤지컬 줄 거리의 대부분은 홍보용으로 내용에 대한 설명이 부실한 경우가 많아 분석에 어려움이 있었습니다. 충분한 한국어 뮤지컬 줄거리 데이터를 구하지 못해 영어 자연어처리로 주제가 변경된 부분이 아쉽습니다 | ||
150 | + | ||
151 | +### 역할 분담 | ||
152 | +양윤지 : | ||
153 | + 영화 데이터 수집&정리, 줄거리 데이터 장르 재태깅, Train,Test데이터 시각화&패딩, LSTM모델구현, 시각화 | ||
154 | + | ||
155 | + | ||
156 | +김서영 : | ||
157 | +뮤지컬 데이터 수집&정리, 장르 데이터 전처리, Train,Test데이터 인코딩, LSTM모델로 학습, 테스트 데이터 학 | ||
158 | +습, 뮤지컬 데이터 분류, | ||
159 | + | ||
160 | +시연 영상 링크 : https://youtu.be/EKjjQ0tHM4s | ... | ... |
moviedata/MovieSummaries.zip
deleted
100644 → 0
This file is too large to display.
1 | -{ | ||
2 | - "cells": [ | ||
3 | - { | ||
4 | - "cell_type": "markdown", | ||
5 | - "metadata": {}, | ||
6 | - "source": [ | ||
7 | - "# <4월 20일 ~ 4월 24일>" | ||
8 | - ] | ||
9 | - }, | ||
10 | - { | ||
11 | - "cell_type": "markdown", | ||
12 | - "metadata": {}, | ||
13 | - "source": [ | ||
14 | - "\n", | ||
15 | - "(1) 플레이DB 웹크롤링 -> 에러처리, csv파일로 옮기기 남음\n", | ||
16 | - "\n", | ||
17 | - "(2) **tf-idf**로 키워드 추출 고려 <br/>\n", | ||
18 | - " -> 줄거리가 짧아서 단어 빈도수가 커야 6정도 ==> 따라서 장르별 대표작들 줄거리를 모아서 해보기로 계획\n", | ||
19 | - "\n", | ||
20 | - "(3) **word2vec**로 문맥이 비슷한 단어 파악하려했지만<br/>\n", | ||
21 | - " ->학습 시간이 오래걸리는 문제 <br/>\n", | ||
22 | - " ->단어 관계 파악 후에 어떻게 처리할지 고민,,<br/>\n", | ||
23 | - "\n", | ||
24 | - "---" | ||
25 | - ] | ||
26 | - }, | ||
27 | - { | ||
28 | - "cell_type": "markdown", | ||
29 | - "metadata": {}, | ||
30 | - "source": [ | ||
31 | - "# <다음주 계획>" | ||
32 | - ] | ||
33 | - }, | ||
34 | - { | ||
35 | - "cell_type": "markdown", | ||
36 | - "metadata": {}, | ||
37 | - "source": [ | ||
38 | - "\n", | ||
39 | - "-장르별 키워드 생각(크롤링x, 생각대로) <br/>\n", | ||
40 | - "ex) 로맨스 = ['사랑','연인','애틋',........]<br/>\n", | ||
41 | - "-가볍게 테스트<br/>\n", | ||
42 | - "\n", | ||
43 | - "\n", | ||
44 | - "### 테스트 결과가 잘 나온다면,, 장르별 키워드 추출 모델 만들기\n", | ||
45 | - "#### (잘 나오지 못하면,, 새로운 방법 고려)\n", | ||
46 | - "---\n", | ||
47 | - "\n", | ||
48 | - "(1-1) **불용어 대표 사전 제작**<br/>\n", | ||
49 | - "\n", | ||
50 | - "- 뮤지컬정보관련된거 ('뮤지컬','제작사','콘텐츠', 뮤지컬이름, '창작','티켓', '매진'....)<br/>\n", | ||
51 | - "- 고유 명사<br/>\n", | ||
52 | - "- 시간관련 명사, 부사 모든것, (시작 ,나이, '최초','전날' '작년', OOOO년 OO월 OO일, '당시')<br/>\n", | ||
53 | - "- 장소는 애매,, ('감옥'이런 장소는 유의미,,)(그런데 지명은 무의미)<br/>\n", | ||
54 | - "- 감정이 아닌 단어 예를 들면 ('표현', '세상',...) <br/>\n", | ||
55 | - "- 흔한 불용어('우리' ,,)<br/>\n", | ||
56 | - "- 한국어가 아닌 단어(한자, 영어)<br/>\n", | ||
57 | - "\n", | ||
58 | - "(1-2) **장르 대표작 30편씩 고르기**<br/>\n", | ||
59 | - "=> 장르별 대표작 30편씩은 줄거리 + 그 이외 기사, 대본 가능한대로 긁어와..<br/>\n", | ||
60 | - "\n", | ||
61 | - "*키워드 추출은 불용어 사전을 통해 불필요한 단어를 제외하고, 나머지 단어들의 사용된 빈도를 기준으로함.<br/>\n", | ||
62 | - "*이때 키워드를 사전 api와 비교해서 나오지 않는것은 이름으로 간주하고 제거.<br/>\n", | ||
63 | - "\n", | ||
64 | - "(1-3) 장르 대표작들을 통해 **‘장르별 대표 키워드 사전 만들기’** => 이때 키워드가 포함된 문장도 추출<br/>\n", | ||
65 | - "(왜냐하면 word2vec을 사용하려면 문장 필요)<br/>" | ||
66 | - ] | ||
67 | - }, | ||
68 | - { | ||
69 | - "cell_type": "code", | ||
70 | - "execution_count": null, | ||
71 | - "metadata": {}, | ||
72 | - "outputs": [], | ||
73 | - "source": [] | ||
74 | - } | ||
75 | - ], | ||
76 | - "metadata": { | ||
77 | - "kernelspec": { | ||
78 | - "display_name": "Python 3", | ||
79 | - "language": "python", | ||
80 | - "name": "python3" | ||
81 | - }, | ||
82 | - "language_info": { | ||
83 | - "codemirror_mode": { | ||
84 | - "name": "ipython", | ||
85 | - "version": 3 | ||
86 | - }, | ||
87 | - "file_extension": ".py", | ||
88 | - "mimetype": "text/x-python", | ||
89 | - "name": "python", | ||
90 | - "nbconvert_exporter": "python", | ||
91 | - "pygments_lexer": "ipython3", | ||
92 | - "version": "3.7.6" | ||
93 | - } | ||
94 | - }, | ||
95 | - "nbformat": 4, | ||
96 | - "nbformat_minor": 2 | ||
97 | -} |
1 | -{ | ||
2 | - "cells": [ | ||
3 | - { | ||
4 | - "cell_type": "markdown", | ||
5 | - "metadata": {}, | ||
6 | - "source": [ | ||
7 | - "## 1. 불용어 처리\n", | ||
8 | - "## 2. 어근 추출\n", | ||
9 | - "## 3. 인코딩\n", | ||
10 | - "## 4. 패딩 \n", | ||
11 | - "\n", | ||
12 | - "## 5. " | ||
13 | - ] | ||
14 | - } | ||
15 | - ], | ||
16 | - "metadata": { | ||
17 | - "kernelspec": { | ||
18 | - "display_name": "Python 3", | ||
19 | - "language": "python", | ||
20 | - "name": "python3" | ||
21 | - }, | ||
22 | - "language_info": { | ||
23 | - "codemirror_mode": { | ||
24 | - "name": "ipython", | ||
25 | - "version": 3 | ||
26 | - }, | ||
27 | - "file_extension": ".py", | ||
28 | - "mimetype": "text/x-python", | ||
29 | - "name": "python", | ||
30 | - "nbconvert_exporter": "python", | ||
31 | - "pygments_lexer": "ipython3", | ||
32 | - "version": "3.7.3" | ||
33 | - } | ||
34 | - }, | ||
35 | - "nbformat": 4, | ||
36 | - "nbformat_minor": 2 | ||
37 | -} |
1 | -{ | ||
2 | - "cells": [ | ||
3 | - { | ||
4 | - "cell_type": "code", | ||
5 | - "execution_count": 1, | ||
6 | - "metadata": {}, | ||
7 | - "outputs": [ | ||
8 | - { | ||
9 | - "name": "stdout", | ||
10 | - "output_type": "stream", | ||
11 | - "text": [ | ||
12 | - "5699\n", | ||
13 | - "9823\n", | ||
14 | - "14020\n", | ||
15 | - "2727\n", | ||
16 | - "1498\n", | ||
17 | - "1464\n" | ||
18 | - ] | ||
19 | - } | ||
20 | - ], | ||
21 | - "source": [ | ||
22 | - "import pandas as pd\n", | ||
23 | - "from nltk.corpus import stopwords\n", | ||
24 | - "from nltk.tokenize import word_tokenize\n", | ||
25 | - "import re\n", | ||
26 | - "\n", | ||
27 | - "\n", | ||
28 | - "thriller_plot = pd.read_csv('/Users/yangyoonji/Documents/2020-1/2020-dataCapstone/data/moviedata/moviePlot/thrillerPlot.csv')\n", | ||
29 | - "drama_plot = pd.read_csv('/Users/yangyoonji/Documents/2020-1/2020-dataCapstone/data/moviedata/moviePlot/dramaPlot.csv')\n", | ||
30 | - "fantasy_plot = pd.read_csv('/Users/yangyoonji/Documents/2020-1/2020-dataCapstone/data/moviedata/moviePlot/fantasyPlot.csv')\n", | ||
31 | - "history_plot = pd.read_csv('/Users/yangyoonji/Documents/2020-1/2020-dataCapstone/data/moviedata/moviePlot/historyPlot.csv')\n", | ||
32 | - "social_plot = pd.read_csv('/Users/yangyoonji/Documents/2020-1/2020-dataCapstone/data/moviedata/moviePlot/socialPlot.csv')\n", | ||
33 | - "romance_plot = pd.read_csv('/Users/yangyoonji/Documents/2020-1/2020-dataCapstone/data/moviedata/moviePlot/romancePlot.csv')\n", | ||
34 | - "# /Users/김서영/Desktop/datacap/data/moviedata/moviePlot/romancePlot.csv\n", | ||
35 | - "\n", | ||
36 | - "#romance_plot = pd.read_csv('/Users/김서영/Desktop/datacap/data/moviedata/moviePlot/romancePlot.csv')\n", | ||
37 | - "#thriller_plot = pd.read_csv('/Users/김서영/Desktop/datacap/data/moviedata/moviePlot/thrillerPlot.csv')\n", | ||
38 | - "#drama_plot = pd.read_csv('/Users/김서영/Desktop/datacap/data/moviedata/moviePlot/dramaPlot.csv')\n", | ||
39 | - "#fantasy_plot = pd.read_csv('/Users/김서영/Desktop/datacap/data/moviedata/moviePlot/fantasyPlot.csv')\n", | ||
40 | - "#history_plot = pd.read_csv('/Users/김서영/Desktop/datacap/data/moviedata/moviePlot/historyPlot.csv')\n", | ||
41 | - "#social_plot = pd.read_csv('/Users/김서영/Desktop/datacap/data/moviedata/moviePlot/socialPlot.csv')\n", | ||
42 | - "\n", | ||
43 | - "print(len(romance_plot)) #5699 ==> train 2500 test 2500\n", | ||
44 | - "print(len(thriller_plot)) #9823 ==> train 2500 test 2500\n", | ||
45 | - "print(len(drama_plot))\n", | ||
46 | - "print(len(fantasy_plot))\n", | ||
47 | - "print(len(history_plot))\n", | ||
48 | - "print(len(social_plot))\n", | ||
49 | - "\n", | ||
50 | - "train_data_size = 1463\n", | ||
51 | - "test_data_size = 1463\n", | ||
52 | - "\n", | ||
53 | - "#전처리(1) 전부 소문자로 변환\n", | ||
54 | - "\n", | ||
55 | - "\n", | ||
56 | - "#romance_plot.줄거리 = romance_plot.줄거리.str.lower()\n", | ||
57 | - "#thriller_plot.줄거리 = thriller_plot.줄거리.str.lower()\n", | ||
58 | - "\n", | ||
59 | - "#전처리(1-1) 데이터 csv 파일로 옮기기\n", | ||
60 | - "#romance_plot 2899개 train_data로 to_csv || 2800개 test_data로 to_csv\n", | ||
61 | - "#thriller_plot 2899개 train_data로 to_csv || 2800개 test_data로 to_csv\n" | ||
62 | - ] | ||
63 | - }, | ||
64 | - { | ||
65 | - "cell_type": "code", | ||
66 | - "execution_count": 27, | ||
67 | - "metadata": {}, | ||
68 | - "outputs": [], | ||
69 | - "source": [ | ||
70 | - "RM = [[] for _ in range(5699)]\n", | ||
71 | - "for i in range(5699):\n", | ||
72 | - " RM[i].append(''.join(romance_plot.줄거리[i]))\n", | ||
73 | - " \n", | ||
74 | - "TH = [[] for _ in range(9823)]\n", | ||
75 | - "for i in range(9823):\n", | ||
76 | - " TH[i].append(''.join(thriller_plot.줄거리[i]))\n", | ||
77 | - "\n", | ||
78 | - "FN = [[] for _ in range(2727)]\n", | ||
79 | - "for i in range(2727):\n", | ||
80 | - " FN[i].append(''.join(fantasy_plot.줄거리[i]))\n", | ||
81 | - " \n", | ||
82 | - "HS = [[] for _ in range(1498)]\n", | ||
83 | - "for i in range(1498):\n", | ||
84 | - " HS[i].append(''.join(history_plot.줄거리[i]))\n", | ||
85 | - " \n", | ||
86 | - "SC = [[] for _ in range(1464)]\n", | ||
87 | - "for i in range(1464):\n", | ||
88 | - " SC[i].append(''.join(social_plot.줄거리[i]))\n", | ||
89 | - "\n", | ||
90 | - "DR = [[] for _ in range(14019)]\n", | ||
91 | - "for i in range(14019):\n", | ||
92 | - " DR[i].append(''.join(drama_plot.줄거리[i]))\n", | ||
93 | - " " | ||
94 | - ] | ||
95 | - }, | ||
96 | - { | ||
97 | - "cell_type": "code", | ||
98 | - "execution_count": 28, | ||
99 | - "metadata": {}, | ||
100 | - "outputs": [], | ||
101 | - "source": [ | ||
102 | - "allplot = RM+TH+FN+HS+SC+DR #모든 드라마 줄거리" | ||
103 | - ] | ||
104 | - }, | ||
105 | - { | ||
106 | - "cell_type": "code", | ||
107 | - "execution_count": 4, | ||
108 | - "metadata": {}, | ||
109 | - "outputs": [ | ||
110 | - { | ||
111 | - "name": "stdout", | ||
112 | - "output_type": "stream", | ||
113 | - "text": [ | ||
114 | - "35230\n" | ||
115 | - ] | ||
116 | - } | ||
117 | - ], | ||
118 | - "source": [ | ||
119 | - "print(len(allplot))" | ||
120 | - ] | ||
121 | - }, | ||
122 | - { | ||
123 | - "cell_type": "markdown", | ||
124 | - "metadata": {}, | ||
125 | - "source": [ | ||
126 | - "## 모든 장르 줄거리 " | ||
127 | - ] | ||
128 | - }, | ||
129 | - { | ||
130 | - "cell_type": "code", | ||
131 | - "execution_count": 29, | ||
132 | - "metadata": {}, | ||
133 | - "outputs": [ | ||
134 | - { | ||
135 | - "name": "stderr", | ||
136 | - "output_type": "stream", | ||
137 | - "text": [ | ||
138 | - "100%|███████████████████████████████████████████████████████████████████████████| 35230/35230 [04:06<00:00, 142.67it/s]\n" | ||
139 | - ] | ||
140 | - } | ||
141 | - ], | ||
142 | - "source": [ | ||
143 | - "# 토큰화+전처리(3) 전체 불용어 처리\n", | ||
144 | - "# 전체 플롯\n", | ||
145 | - "from tqdm import tqdm\n", | ||
146 | - "all_vocab = {} \n", | ||
147 | - "all_sentences = []\n", | ||
148 | - "stop_words = set(stopwords.words('english'))\n", | ||
149 | - "\n", | ||
150 | - "for i in tqdm(allplot):\n", | ||
151 | - " all_sentences = word_tokenize(str(i)) # 단어 토큰화를 수행합니다.\n", | ||
152 | - " result = []\n", | ||
153 | - " for word in all_sentences: \n", | ||
154 | - " word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.\n", | ||
155 | - " if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.\n", | ||
156 | - " if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.\n", | ||
157 | - " result.append(word)\n", | ||
158 | - " if word not in all_vocab:\n", | ||
159 | - " all_vocab[word] = 0 \n", | ||
160 | - " all_vocab[word] += 1\n", | ||
161 | - " all_sentences.append(result) " | ||
162 | - ] | ||
163 | - }, | ||
164 | - { | ||
165 | - "cell_type": "code", | ||
166 | - "execution_count": 30, | ||
167 | - "metadata": {}, | ||
168 | - "outputs": [], | ||
169 | - "source": [ | ||
170 | - "all_vocab_sorted = sorted(all_vocab.items(), key = lambda x:x[1], reverse = True)\n", | ||
171 | - "\n", | ||
172 | - "#전처리(4) 인덱스 부여\n", | ||
173 | - "all_word_to_index = {}\n", | ||
174 | - "i=0\n", | ||
175 | - "for (word, frequency) in all_vocab_sorted :\n", | ||
176 | - " if frequency > 1 : # 정제(Cleaning) 챕터에서 언급했듯이 빈도수가 적은 단어는 제외한다.\n", | ||
177 | - " i=i+1\n", | ||
178 | - " all_word_to_index[word] = i\n", | ||
179 | - "#print(all_word_to_index)\n", | ||
180 | - "\n", | ||
181 | - "vocab_size = 15000 #상위 15000개 단어만 사용\n", | ||
182 | - "words_frequency = [w for w,c in all_word_to_index.items() if c >= vocab_size + 1] # 인덱스가 200 초과인 단어 제거\n", | ||
183 | - "for w in words_frequency:\n", | ||
184 | - " del all_word_to_index[w] # 해당 단어에 대한 인덱스 정보를 삭제\n", | ||
185 | - "\n", | ||
186 | - " \n", | ||
187 | - "all_word_to_index['OOV'] = len(all_word_to_index) + 1" | ||
188 | - ] | ||
189 | - }, | ||
190 | - { | ||
191 | - "cell_type": "markdown", | ||
192 | - "metadata": {}, | ||
193 | - "source": [ | ||
194 | - "## 로맨스" | ||
195 | - ] | ||
196 | - }, | ||
197 | - { | ||
198 | - "cell_type": "code", | ||
199 | - "execution_count": 31, | ||
200 | - "metadata": {}, | ||
201 | - "outputs": [ | ||
202 | - { | ||
203 | - "name": "stderr", | ||
204 | - "output_type": "stream", | ||
205 | - "text": [ | ||
206 | - "100%|█████████████████████████████████████████████████████████████████████████████| 5699/5699 [00:36<00:00, 154.26it/s]\n" | ||
207 | - ] | ||
208 | - } | ||
209 | - ], | ||
210 | - "source": [ | ||
211 | - "# 토큰화+전처리(3) 불용어 처리\n", | ||
212 | - "# 로맨스 플롯\n", | ||
213 | - "\n", | ||
214 | - "vocab_r = {} \n", | ||
215 | - "RMsentences = []\n", | ||
216 | - "RMstop_words = set(stopwords.words('english'))\n", | ||
217 | - "\n", | ||
218 | - "for i in tqdm(RM):\n", | ||
219 | - " RMsentence = word_tokenize(str(i)) # 단어 토큰화를 수행합니다.\n", | ||
220 | - " result = []\n", | ||
221 | - "\n", | ||
222 | - " for word in RMsentence: \n", | ||
223 | - " word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.\n", | ||
224 | - " if word not in RMstop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.\n", | ||
225 | - " if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.\n", | ||
226 | - " result.append(word)\n", | ||
227 | - " if word not in vocab_r:\n", | ||
228 | - " vocab_r[word] = 0 \n", | ||
229 | - " vocab_r[word] += 1\n", | ||
230 | - " RMsentences.append(result) \n", | ||
231 | - "\n", | ||
232 | - "R_encoded = []\n", | ||
233 | - "for s in RMsentences:\n", | ||
234 | - " temp = []\n", | ||
235 | - " for w in s:\n", | ||
236 | - " try:\n", | ||
237 | - " temp.append(all_word_to_index[w])\n", | ||
238 | - " except KeyError:\n", | ||
239 | - " temp.append(all_word_to_index['OOV'])\n", | ||
240 | - " R_encoded.append(temp)\n" | ||
241 | - ] | ||
242 | - }, | ||
243 | - { | ||
244 | - "cell_type": "markdown", | ||
245 | - "metadata": {}, | ||
246 | - "source": [ | ||
247 | - "## 스릴러" | ||
248 | - ] | ||
249 | - }, | ||
250 | - { | ||
251 | - "cell_type": "code", | ||
252 | - "execution_count": 32, | ||
253 | - "metadata": { | ||
254 | - "scrolled": false | ||
255 | - }, | ||
256 | - "outputs": [ | ||
257 | - { | ||
258 | - "name": "stderr", | ||
259 | - "output_type": "stream", | ||
260 | - "text": [ | ||
261 | - "100%|█████████████████████████████████████████████████████████████████████████████| 9823/9823 [01:19<00:00, 124.04it/s]\n" | ||
262 | - ] | ||
263 | - } | ||
264 | - ], | ||
265 | - "source": [ | ||
266 | - "# 토큰화+전처리(3) 불용어 처리\n", | ||
267 | - "# 스릴러 플롯\n", | ||
268 | - "\n", | ||
269 | - "vocab_th = {} \n", | ||
270 | - "THsentences = []\n", | ||
271 | - "THstop_words = set(stopwords.words('english'))\n", | ||
272 | - "\n", | ||
273 | - "for i in tqdm(TH):\n", | ||
274 | - " \n", | ||
275 | - " THsentence = word_tokenize(str(i)) # 단어 토큰화를 수행합니다.\n", | ||
276 | - " result = []\n", | ||
277 | - "\n", | ||
278 | - " for word in THsentence: \n", | ||
279 | - " word = word.lower() # 모든 단어를 소문자화하여 단어의 개수를 줄입니다.\n", | ||
280 | - " if word not in THstop_words: # 단어 토큰화 된 결과에 대해서 불용어를 제거합니다.\n", | ||
281 | - " if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거합니다.\n", | ||
282 | - " result.append(word)\n", | ||
283 | - " if word not in vocab_th:\n", | ||
284 | - " vocab_th[word] = 0 \n", | ||
285 | - " vocab_th[word] += 1\n", | ||
286 | - " THsentences.append(result) \n", | ||
287 | - "\n", | ||
288 | - "TH_encoded = []\n", | ||
289 | - "for s in THsentences:\n", | ||
290 | - " temp = []\n", | ||
291 | - " for w in s:\n", | ||
292 | - " try:\n", | ||
293 | - " temp.append(all_word_to_index[w])\n", | ||
294 | - " except KeyError:\n", | ||
295 | - " temp.append(all_word_to_index['OOV'])\n", | ||
296 | - " TH_encoded.append(temp)\n", | ||
297 | - "\n" | ||
298 | - ] | ||
299 | - }, | ||
300 | - { | ||
301 | - "cell_type": "code", | ||
302 | - "execution_count": null, | ||
303 | - "metadata": {}, | ||
304 | - "outputs": [], | ||
305 | - "source": [ | ||
306 | - "#전처리 방법에는 NLTK의 FreqDist, 케라스(Keras) 토크나이저도 사용 가능." | ||
307 | - ] | ||
308 | - }, | ||
309 | - { | ||
310 | - "cell_type": "markdown", | ||
311 | - "metadata": {}, | ||
312 | - "source": [ | ||
313 | - "로맨스 플롯, 스릴러 따로 토큰화 해서 x train에 넣을지... 고민중\n", | ||
314 | - "\n", | ||
315 | - "이번주 : 전처리 완료, \n", | ||
316 | - "이번 달 목표 : 뮤지컬 장르 분류 << 다양한 모델 사용해보기.\n", | ||
317 | - "\n", | ||
318 | - "6월에 교차검증 및 장르 시각화 설계까지.\n", | ||
319 | - "\n", | ||
320 | - "다음주 : 2진분류(LSTM) 완료, RNN 분류기 만들어보기" | ||
321 | - ] | ||
322 | - }, | ||
323 | - { | ||
324 | - "cell_type": "markdown", | ||
325 | - "metadata": {}, | ||
326 | - "source": [ | ||
327 | - "## 학습데이터" | ||
328 | - ] | ||
329 | - }, | ||
330 | - { | ||
331 | - "cell_type": "code", | ||
332 | - "execution_count": null, | ||
333 | - "metadata": {}, | ||
334 | - "outputs": [], | ||
335 | - "source": [ | ||
336 | - "# 영화 줄거리는 X_train에, 장르 정보는 y_train에 저장된다.\n", | ||
337 | - "# 테스트용 줄거리 X_test에, 테스트용 줄거리의 장르 정보는 y_test에 저장된다.\n", | ||
338 | - "#맞춰서 저장하기. (진행중)\n", | ||
339 | - "\n", | ||
340 | - "#X_train = train_sc_df.dropna().drop(‘trade_price_idx_value’, axis=1)" | ||
341 | - ] | ||
342 | - }, | ||
343 | - { | ||
344 | - "cell_type": "code", | ||
345 | - "execution_count": 33, | ||
346 | - "metadata": {}, | ||
347 | - "outputs": [], | ||
348 | - "source": [ | ||
349 | - "X_train = []\n", | ||
350 | - "Y_train = [] #0 : romance, 1 : thriller \n", | ||
351 | - "for i in range(train_data_size):\n", | ||
352 | - " X_train.append(R_encoded[i])\n", | ||
353 | - " Y_train.append(0)\n", | ||
354 | - " X_train.append(TH_encoded[i])\n", | ||
355 | - " Y_train.append(1)" | ||
356 | - ] | ||
357 | - }, | ||
358 | - { | ||
359 | - "cell_type": "code", | ||
360 | - "execution_count": 10, | ||
361 | - "metadata": {}, | ||
362 | - "outputs": [], | ||
363 | - "source": [ | ||
364 | - "#print(X_train[2])\n", | ||
365 | - "#print(Y_train[2])" | ||
366 | - ] | ||
367 | - }, | ||
368 | - { | ||
369 | - "cell_type": "code", | ||
370 | - "execution_count": 34, | ||
371 | - "metadata": {}, | ||
372 | - "outputs": [ | ||
373 | - { | ||
374 | - "name": "stdout", | ||
375 | - "output_type": "stream", | ||
376 | - "text": [ | ||
377 | - "줄거리 최대 길이 : 1974\n", | ||
378 | - "줄거리 평균 길이 : 267.093984962406\n" | ||
379 | - ] | ||
380 | - }, | ||
381 | - { | ||
382 | - "data": { | ||
383 | - "image/png": "\n", | ||
384 | - "text/plain": [ | ||
385 | - "<Figure size 432x288 with 2 Axes>" | ||
386 | - ] | ||
387 | - }, | ||
388 | - "metadata": { | ||
389 | - "needs_background": "light" | ||
390 | - }, | ||
391 | - "output_type": "display_data" | ||
392 | - } | ||
393 | - ], | ||
394 | - "source": [ | ||
395 | - "import matplotlib.pyplot as plt\n", | ||
396 | - "%matplotlib inline\n", | ||
397 | - "\n", | ||
398 | - "len_result = [len(s) for s in X_train]\n", | ||
399 | - "print(\"줄거리 최대 길이 : \",max(len_result))\n", | ||
400 | - "print(\"줄거리 평균 길이 : \",sum(len_result)/len(len_result))\n", | ||
401 | - "\n", | ||
402 | - "plt.subplot(1,2,1)\n", | ||
403 | - "plt.boxplot(len_result)\n", | ||
404 | - "plt.subplot(1,2,2)\n", | ||
405 | - "plt.hist(len_result, bins=50)\n", | ||
406 | - "plt.show()" | ||
407 | - ] | ||
408 | - }, | ||
409 | - { | ||
410 | - "cell_type": "markdown", | ||
411 | - "metadata": {}, | ||
412 | - "source": [ | ||
413 | - "## 테스트 데이터\n", | ||
414 | - "\n" | ||
415 | - ] | ||
416 | - }, | ||
417 | - { | ||
418 | - "cell_type": "code", | ||
419 | - "execution_count": 35, | ||
420 | - "metadata": {}, | ||
421 | - "outputs": [], | ||
422 | - "source": [ | ||
423 | - "X_test = []\n", | ||
424 | - "Y_test = [] #0 : romance, 1 : thriller \n", | ||
425 | - "for i in range(test_data_size):\n", | ||
426 | - " X_test.append(R_encoded[train_data_size+i])\n", | ||
427 | - " Y_test.append(0)\n", | ||
428 | - " X_test.append(TH_encoded[train_data_size+i])\n", | ||
429 | - " Y_test.append(1)\n", | ||
430 | - " \n", | ||
431 | - " " | ||
432 | - ] | ||
433 | - }, | ||
434 | - { | ||
435 | - "cell_type": "code", | ||
436 | - "execution_count": 36, | ||
437 | - "metadata": {}, | ||
438 | - "outputs": [ | ||
439 | - { | ||
440 | - "name": "stdout", | ||
441 | - "output_type": "stream", | ||
442 | - "text": [ | ||
443 | - "줄거리 최대 길이 : 1749\n", | ||
444 | - "줄거리 평균 길이 : 197.71394395078605\n" | ||
445 | - ] | ||
446 | - }, | ||
447 | - { | ||
448 | - "data": { | ||
449 | - "image/png": "\n", | ||
450 | - "text/plain": [ | ||
451 | - "<Figure size 432x288 with 2 Axes>" | ||
452 | - ] | ||
453 | - }, | ||
454 | - "metadata": { | ||
455 | - "needs_background": "light" | ||
456 | - }, | ||
457 | - "output_type": "display_data" | ||
458 | - } | ||
459 | - ], | ||
460 | - "source": [ | ||
461 | - "import matplotlib.pyplot as plt\n", | ||
462 | - "%matplotlib inline\n", | ||
463 | - "\n", | ||
464 | - "len_result = [len(s) for s in X_test]\n", | ||
465 | - "print(\"줄거리 최대 길이 : \",max(len_result))\n", | ||
466 | - "print(\"줄거리 평균 길이 : \",sum(len_result)/len(len_result))\n", | ||
467 | - "\n", | ||
468 | - "plt.subplot(1,2,1)\n", | ||
469 | - "plt.boxplot(len_result)\n", | ||
470 | - "plt.subplot(1,2,2)\n", | ||
471 | - "plt.hist(len_result, bins=50)\n", | ||
472 | - "plt.show()" | ||
473 | - ] | ||
474 | - }, | ||
475 | - { | ||
476 | - "cell_type": "markdown", | ||
477 | - "metadata": {}, | ||
478 | - "source": [ | ||
479 | - "## LSTM 분류 \n" | ||
480 | - ] | ||
481 | - }, | ||
482 | - { | ||
483 | - "cell_type": "code", | ||
484 | - "execution_count": 37, | ||
485 | - "metadata": {}, | ||
486 | - "outputs": [], | ||
487 | - "source": [ | ||
488 | - "from tensorflow.keras.preprocessing.sequence import pad_sequences\n", | ||
489 | - "from tensorflow.keras.models import Sequential\n", | ||
490 | - "from tensorflow.keras.layers import Dense, LSTM, Embedding\n", | ||
491 | - "from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint\n", | ||
492 | - "import numpy as np\n", | ||
493 | - "\n", | ||
494 | - "max_len = 600\n", | ||
495 | - "X_train = pad_sequences(X_train, maxlen=max_len)\n", | ||
496 | - "X_test = pad_sequences(X_train, maxlen=max_len)\n" | ||
497 | - ] | ||
498 | - }, | ||
499 | - { | ||
500 | - "cell_type": "code", | ||
501 | - "execution_count": null, | ||
502 | - "metadata": {}, | ||
503 | - "outputs": [ | ||
504 | - { | ||
505 | - "name": "stdout", | ||
506 | - "output_type": "stream", | ||
507 | - "text": [ | ||
508 | - "Train on 2926 samples, validate on 2926 samples\n", | ||
509 | - "Epoch 1/3\n", | ||
510 | - "2880/2926 [============================>.] - ETA: 1s - loss: 0.6089 - acc: 0.6573\n", | ||
511 | - "Epoch 00001: val_acc improved from -inf to 0.80554, saving model to best_model.h5\n", | ||
512 | - "2926/2926 [==============================] - 108s 37ms/sample - loss: 0.6094 - acc: 0.6582 - val_loss: 0.6007 - val_acc: 0.8055\n", | ||
513 | - "Epoch 2/3\n", | ||
514 | - "2880/2926 [============================>.] - ETA: 1s - loss: 0.4706 - acc: 0.8271\n", | ||
515 | - "Epoch 00002: val_acc improved from 0.80554 to 0.93233, saving model to best_model.h5\n", | ||
516 | - "2926/2926 [==============================] - 103s 35ms/sample - loss: 0.4674 - acc: 0.8284 - val_loss: 0.1962 - val_acc: 0.9323\n", | ||
517 | - "Epoch 3/3\n", | ||
518 | - "2048/2926 [===================>..........] - ETA: 25s - loss: 0.1774 - acc: 0.9404" | ||
519 | - ] | ||
520 | - } | ||
521 | - ], | ||
522 | - "source": [ | ||
523 | - "model = Sequential()\n", | ||
524 | - "model.add(Embedding(15002, 120))\n", | ||
525 | - "model.add(LSTM(128))\n", | ||
526 | - "model.add(Dense(1, activation='sigmoid'))\n", | ||
527 | - "\n", | ||
528 | - "es = EarlyStopping(monitor='val_loss', mode='min', verbose=1, patience=4)\n", | ||
529 | - "mc = ModelCheckpoint('best_model.h5', monitor='val_acc', mode='max', verbose=1, save_best_only=True)\n", | ||
530 | - "\n", | ||
531 | - "X_train = np.array(X_train)\n", | ||
532 | - "Y_train = np.array(Y_train)\n", | ||
533 | - "X_test = np.array(X_test)\n", | ||
534 | - "Y_test = np.array(Y_test)\n", | ||
535 | - "\n", | ||
536 | - "model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['acc'])\n", | ||
537 | - "model.fit(X_train, Y_train, validation_data=(X_test, Y_test), epochs=3, batch_size=64, callbacks=[es, mc])\n", | ||
538 | - "\n" | ||
539 | - ] | ||
540 | - }, | ||
541 | - { | ||
542 | - "cell_type": "code", | ||
543 | - "execution_count": 22, | ||
544 | - "metadata": {}, | ||
545 | - "outputs": [ | ||
546 | - { | ||
547 | - "ename": "NameError", | ||
548 | - "evalue": "name 'load_model' is not defined", | ||
549 | - "output_type": "error", | ||
550 | - "traceback": [ | ||
551 | - "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m", | ||
552 | - "\u001b[1;31mNameError\u001b[0m Traceback (most recent call last)", | ||
553 | - "\u001b[1;32m<ipython-input-22-d9b5bb19b28c>\u001b[0m in \u001b[0;36m<module>\u001b[1;34m\u001b[0m\n\u001b[1;32m----> 1\u001b[1;33m \u001b[0mloaded_model\u001b[0m \u001b[1;33m=\u001b[0m \u001b[0mload_model\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;34m'best_model.h5'\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m\u001b[0;32m 2\u001b[0m \u001b[0mprint\u001b[0m\u001b[1;33m(\u001b[0m\u001b[1;34m\"\\n 테스트 정확도: %.4f\"\u001b[0m \u001b[1;33m%\u001b[0m \u001b[1;33m(\u001b[0m\u001b[0mloaded_model\u001b[0m\u001b[1;33m.\u001b[0m\u001b[0mevaluate\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0mX_test\u001b[0m\u001b[1;33m,\u001b[0m \u001b[0my_test\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m[\u001b[0m\u001b[1;36m1\u001b[0m\u001b[1;33m]\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n", | ||
554 | - "\u001b[1;31mNameError\u001b[0m: name 'load_model' is not defined" | ||
555 | - ] | ||
556 | - } | ||
557 | - ], | ||
558 | - "source": [ | ||
559 | - "loaded_model = load_model('best_model.h5')\n", | ||
560 | - "print(\"\\n 테스트 정확도: %.4f\" % (loaded_model.evaluate(X_test, Y_test)[1]))" | ||
561 | - ] | ||
562 | - }, | ||
563 | - { | ||
564 | - "cell_type": "code", | ||
565 | - "execution_count": null, | ||
566 | - "metadata": {}, | ||
567 | - "outputs": [], | ||
568 | - "source": [] | ||
569 | - }, | ||
570 | - { | ||
571 | - "cell_type": "code", | ||
572 | - "execution_count": null, | ||
573 | - "metadata": {}, | ||
574 | - "outputs": [], | ||
575 | - "source": [] | ||
576 | - }, | ||
577 | - { | ||
578 | - "cell_type": "code", | ||
579 | - "execution_count": null, | ||
580 | - "metadata": {}, | ||
581 | - "outputs": [], | ||
582 | - "source": [] | ||
583 | - }, | ||
584 | - { | ||
585 | - "cell_type": "code", | ||
586 | - "execution_count": null, | ||
587 | - "metadata": {}, | ||
588 | - "outputs": [], | ||
589 | - "source": [] | ||
590 | - }, | ||
591 | - { | ||
592 | - "cell_type": "code", | ||
593 | - "execution_count": null, | ||
594 | - "metadata": {}, | ||
595 | - "outputs": [], | ||
596 | - "source": [] | ||
597 | - }, | ||
598 | - { | ||
599 | - "cell_type": "code", | ||
600 | - "execution_count": null, | ||
601 | - "metadata": {}, | ||
602 | - "outputs": [], | ||
603 | - "source": [] | ||
604 | - }, | ||
605 | - { | ||
606 | - "cell_type": "code", | ||
607 | - "execution_count": null, | ||
608 | - "metadata": {}, | ||
609 | - "outputs": [], | ||
610 | - "source": [] | ||
611 | - }, | ||
612 | - { | ||
613 | - "cell_type": "code", | ||
614 | - "execution_count": 1, | ||
615 | - "metadata": {}, | ||
616 | - "outputs": [ | ||
617 | - { | ||
618 | - "name": "stderr", | ||
619 | - "output_type": "stream", | ||
620 | - "text": [ | ||
621 | - "Using TensorFlow backend.\n" | ||
622 | - ] | ||
623 | - }, | ||
624 | - { | ||
625 | - "name": "stdout", | ||
626 | - "output_type": "stream", | ||
627 | - "text": [ | ||
628 | - "Downloading data from https://s3.amazonaws.com/img-datasets/mnist.npz\n", | ||
629 | - "11493376/11490434 [==============================] - 6s 1us/step\n", | ||
630 | - "WARNING:tensorflow:From /Users/yangyoonji/anaconda3/lib/python3.7/site-packages/tensorflow/python/framework/op_def_library.py:263: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version.\n", | ||
631 | - "Instructions for updating:\n", | ||
632 | - "Colocations handled automatically by placer.\n", | ||
633 | - "WARNING:tensorflow:From /Users/yangyoonji/anaconda3/lib/python3.7/site-packages/tensorflow/python/ops/math_ops.py:3066: to_int32 (from tensorflow.python.ops.math_ops) is deprecated and will be removed in a future version.\n", | ||
634 | - "Instructions for updating:\n", | ||
635 | - "Use tf.cast instead.\n", | ||
636 | - "Train on 18000 samples, validate on 42000 samples\n", | ||
637 | - "Epoch 1/5\n", | ||
638 | - "18000/18000 [==============================] - 3s 181us/step - loss: 1.1402 - acc: 0.7294 - val_loss: 0.6392 - val_acc: 0.8463\n", | ||
639 | - "Epoch 2/5\n", | ||
640 | - "18000/18000 [==============================] - 3s 170us/step - loss: 0.5055 - acc: 0.8734 - val_loss: 0.4687 - val_acc: 0.8739\n", | ||
641 | - "Epoch 3/5\n", | ||
642 | - "18000/18000 [==============================] - 3s 153us/step - loss: 0.4080 - acc: 0.8901 - val_loss: 0.4105 - val_acc: 0.8872\n", | ||
643 | - "Epoch 4/5\n", | ||
644 | - "18000/18000 [==============================] - 3s 148us/step - loss: 0.3652 - acc: 0.8979 - val_loss: 0.3805 - val_acc: 0.8939\n", | ||
645 | - "Epoch 5/5\n", | ||
646 | - "18000/18000 [==============================] - 3s 156us/step - loss: 0.3390 - acc: 0.9049 - val_loss: 0.3642 - val_acc: 0.8976\n", | ||
647 | - "10000/10000 [==============================] - 0s 28us/step\n", | ||
648 | - "\n", | ||
649 | - "loss_and_metrics : [0.33921422773599624, 0.9048]\n", | ||
650 | - "True : 7, Predict : 7\n", | ||
651 | - "True : 1, Predict : 1\n", | ||
652 | - "True : 1, Predict : 1\n", | ||
653 | - "True : 7, Predict : 7\n", | ||
654 | - "True : 9, Predict : 9\n" | ||
655 | - ] | ||
656 | - } | ||
657 | - ], | ||
658 | - "source": [ | ||
659 | - "# 영화 리뷰 예제\n", | ||
660 | - "# 0. 사용할 패키지 불러오기\n", | ||
661 | - "from keras.utils import np_utils\n", | ||
662 | - "from keras.datasets import mnist\n", | ||
663 | - "from keras.models import Sequential\n", | ||
664 | - "from keras.layers import Dense, Activation\n", | ||
665 | - "import numpy as np\n", | ||
666 | - "from numpy import argmax\n", | ||
667 | - "\n", | ||
668 | - "# 1. 데이터셋 생성하기\n", | ||
669 | - "\n", | ||
670 | - "# 훈련셋과 시험셋 불러오기\n", | ||
671 | - "(x_train, y_train), (x_test, y_test) = mnist.load_data()\n", | ||
672 | - "\n", | ||
673 | - "# 데이터셋 전처리\n", | ||
674 | - "x_train = x_train.reshape(60000, 784).astype('float32') / 255.0\n", | ||
675 | - "x_test = x_test.reshape(10000, 784).astype('float32') / 255.0\n", | ||
676 | - "\n", | ||
677 | - "# 원핫인코딩 (one-hot encoding) 처리\n", | ||
678 | - "y_train = np_utils.to_categorical(y_train)\n", | ||
679 | - "y_test = np_utils.to_categorical(y_test)\n", | ||
680 | - "\n", | ||
681 | - "# 훈련셋과 검증셋 분리\n", | ||
682 | - "x_val = x_train[:42000] # 훈련셋의 30%를 검증셋으로 사용\n", | ||
683 | - "x_train = x_train[42000:]\n", | ||
684 | - "y_val = y_train[:42000] # 훈련셋의 30%를 검증셋으로 사용\n", | ||
685 | - "y_train = y_train[42000:]\n", | ||
686 | - "\n", | ||
687 | - "# 2. 모델 구성하기\n", | ||
688 | - "model = Sequential()\n", | ||
689 | - "model.add(Dense(units=64, input_dim=28*28, activation='relu'))\n", | ||
690 | - "model.add(Dense(units=10, activation='softmax'))\n", | ||
691 | - "\n", | ||
692 | - "# 3. 모델 학습과정 설정하기\n", | ||
693 | - "model.compile(loss='categorical_crossentropy', optimizer='sgd', metrics=['accuracy'])\n", | ||
694 | - "\n", | ||
695 | - "# 4. 모델 학습시키기\n", | ||
696 | - "model.fit(x_train, y_train, epochs=5, batch_size=32, validation_data=(x_val, y_val))\n", | ||
697 | - "\n", | ||
698 | - "# 5. 모델 평가하기\n", | ||
699 | - "loss_and_metrics = model.evaluate(x_test, y_test, batch_size=32)\n", | ||
700 | - "print('')\n", | ||
701 | - "print('loss_and_metrics : ' + str(loss_and_metrics))\n", | ||
702 | - "\n", | ||
703 | - "# 6. 모델 사용하기\n", | ||
704 | - "xhat_idx = np.random.choice(x_test.shape[0], 5)\n", | ||
705 | - "xhat = x_test[xhat_idx]\n", | ||
706 | - "yhat = model.predict_classes(xhat)\n", | ||
707 | - "\n", | ||
708 | - "for i in range(5):\n", | ||
709 | - " print('True : ' + str(argmax(y_test[xhat_idx[i]])) + ', Predict : ' + str(yhat[i]))" | ||
710 | - ] | ||
711 | - }, | ||
712 | - { | ||
713 | - "cell_type": "code", | ||
714 | - "execution_count": null, | ||
715 | - "metadata": {}, | ||
716 | - "outputs": [], | ||
717 | - "source": [] | ||
718 | - } | ||
719 | - ], | ||
720 | - "metadata": { | ||
721 | - "kernelspec": { | ||
722 | - "display_name": "Python 3", | ||
723 | - "language": "python", | ||
724 | - "name": "python3" | ||
725 | - }, | ||
726 | - "language_info": { | ||
727 | - "codemirror_mode": { | ||
728 | - "name": "ipython", | ||
729 | - "version": 3 | ||
730 | - }, | ||
731 | - "file_extension": ".py", | ||
732 | - "mimetype": "text/x-python", | ||
733 | - "name": "python", | ||
734 | - "nbconvert_exporter": "python", | ||
735 | - "pygments_lexer": "ipython3", | ||
736 | - "version": "3.7.3" | ||
737 | - } | ||
738 | - }, | ||
739 | - "nbformat": 4, | ||
740 | - "nbformat_minor": 2 | ||
741 | -} |
발표/5.29.zip
deleted
100644 → 0
No preview for this file type
발표/전체 인덱싱.zip
deleted
100644 → 0
No preview for this file type
-
Please register or login to post a comment