양지수

konlpy_hannanum_x

Showing 1 changed file with 32 additions and 0 deletions
1 +import warnings
2 +warnings.simplefilter(("ignore"))
3 +import konlpy
4 +from konlpy.tag import *
5 +import openpyxl
6 +import pandas as pd
7 +
8 +#형태소분석라이브러리
9 +#okt = Okt()
10 +hannanum = Hannanum()
11 +#filename= input("분석할 파일이름 입력:") #파일명
12 +kfile=openpyxl.load_workbook('C:/Users/yangj/PycharmProjects/pythonProject1/고려아연2월.xlsx')#파일이름입력
13 +sheet=kfile.worksheets[0]#sheet1에 있는 데이터 가죠오기
14 +#print(sheet)
15 +data=[]
16 +for row in sheet.rows: #data에 크롤링한 뉴스 제목들 저장
17 + data.append(
18 + row[1].value
19 + )
20 +#print(data)
21 +#print(type(data[1])) #str
22 +#newData=[]
23 +newData2=[]
24 +#for i in range(len(data)):
25 +# newData.append(okt.nouns(data[i])) #명사만 추출okt
26 +#print(newData)
27 +for i in range(len(data)-1):
28 + newData2.append(hannanum.nouns(data[i+1])) #명사만 추출hannanum가 okt보다 성능좋음
29 +#print(newData2)
30 +#print(type(newData2))#newData2 데이터 형식은 list
31 +df= pd.DataFrame.from_records(newData2)#newData2 dataframe으로 변환
32 +df.to_excel('test.xlsx')#test라는 파일명의 엑셀로 변환
...\ No newline at end of file ...\ No newline at end of file