temp_plan.txt 2.47 KB

Raw Blame History Permalink


<4월 20일 ~ 4월 24일>

(1) 플레이 DB 웹크롤링 -> 에러처리, csv파일로 옮기기 남음

(2) tf-idf로 키워드 추출 고려
 -> 줄거리가 짧아서 단어 빈도수가 커야 6정도 ==> 따라서 장르별 대표작들 줄거리를 모아서 해보기로 계획

(3) word2vec로 문맥이 비슷한 단어 파악하려했지만
 ->학습 시간이 오래걸리는 문제
 ->단어 관계 파악 후에 어떻게 처리할지 고민,,

--------------------------------------------------------------------------
<다음주 계획>

-장르별 키워드 생각(크롤링x, 생각대로)
ex) 로맨스 = ['사랑','연인','애틋',........]
-가볍게 테스트

(1-1). 불용어 대표 사전 제작

- 뮤지컬정보관련된거 ('뮤지컬','제작사','콘텐츠', 뮤지컬이름, '창작','티켓', '매진'....)
- 고유 명사
- 시간관련 명사, 부사 모든것, (시작 ,나이, '최초','전날' '작년', OOOO년 OO월 OO일, '당시')
- 장소는 애매,, ('감옥'이런 장소는 유의미,,)(그런데 지명은 무의미)
- 감정이 아닌 단어 예를 들면 ('표현', '세상',
- 흔한 불용어('우리' ,,)
- 한국어가 아닌 단어(한자, 영어)

(1-2). 2000편 중에 장르 대표작 30편씩 고르기
=> 장르별 대표작 30편씩은 줄거리 + 그 이외 기사, 대본 가능한대로 긁어와..

*키워드 추출은 불용어 사전을 통해 불필요한 단어를 제외하고, 나머지 단어들의 사용된 빈도를 기준으로함.
*이때 키워드를 사전 api와 비교해서 나오지 않는것은 이름으로 간주하고 제거.

(1-3). 장르 대표작들을 통해 ‘장르별 대표 키워드 사전 만들기’ => 이때 키워드가 포함된 문장도 추출
(왜냐하면 word2vec을 사용하려면 문장 필요)

---------------------------------------------------------------------------
ㅣ
(2). 2000편 각각의 키워드(5개)와 키워드 찾고 -> 키워드 담고있는 문장 추출
*키워드 개수는 성능을 확인하면서 조절

(3). word2vec 을 활용해서 ‘장르별 대표 키워드 문장’과 과정(2)에서 추출한 문장 비교하면서
문장의미 유사도 비교..????해서  장르 분류
ex) 과정(2)에서 로맨스 대표작품 문장들 “따뜻한 사랑이 가득 담긴 작품”  “~~사랑 이야기~~~~”
      과정(3)에서 임의의 작품 대표문장. “아름답고 매력적인 사랑”
	=> 그 결과 임의의 작품의 장르는 로맨스가 맞다고 판정