repository cleanup

GyuhoLee
Commit c9b2f4f7e7853e4e41ab990494618f21a25e2482 c9b2f4f7 1 parent 66644c6a
Showing 34 changed files with 169 additions and 614 deletions
src/chromedriver.exe → src/collection/chromedriver.exe
src/collection/collect_singer.py
src/collect_by_melon.py → src/collection/collect_song.py
src/collection/get_singer.py
src/collection/pickle_to_csv_singer.py
src/pickle_to_csv.py → src/collection/pickle_to_csv_song.py
src/collection/preprocessing_edge.py
src/collection/preprocessing_node.py
src/collection/singer.py
src/song.py → src/collection/song.py
src/data.csv
src/data/data_edge.csv
src/data/data_x.csv
src/data/data_y.csv
src/data/singer.csv
src/data/song.csv
src/textrank/__init__.py
src/textrank/__pycache__/__init__.cpython-37.pyc
src/textrank/__pycache__/__init__.cpython-38.pyc
src/textrank/__pycache__/rank.cpython-37.pyc
--- a/src/chromedriver.exe → src/collection/chromedriver.exe
View file @c9b2f4f
+++ b/src/chromedriver.exe → src/collection/chromedriver.exe
View file @c9b2f4f
--- a/src/collection/collect_singer.py 0 → 100644
View file @c9b2f4f
+++ b/src/collection/collect_singer.py 0 → 100644
View file @c9b2f4f
+ import re, pickle
+ from selenium import webdriver
+ from singer import *
+ 
+ WAIT_TIME = 5
+ A, B = 700, 900
+ 
+ with open('singer_name.pickle', 'rb') as f:
+     singer_name = pickle.load(f)
+ 
+ def GetMelonData():
+     singers = []
+     driver = webdriver.Chrome('chromedriver.exe')
+     driver.implicitly_wait(WAIT_TIME)
+ 
+     for name in singer_name[A:B]:
+         singer = Singer()
+         singer.name = name
+         name = name.replace('#', '%23')
+         name = name.replace('&', '%26') 
+         url = 'https://www.melon.com/search/total/index.htm?q='+ name + '&section=&searchGnbYn=Y&kkoSpl=Y&kkoDpType=&linkOrText=T&ipath=srch_form'
+         driver.get(url)
+         driver.implicitly_wait(WAIT_TIME)
+         tmp = driver.find_elements_by_css_selector('#conts > div.section_atist > div > div.atist_dtl_info > dl > dd:nth-child(4)')[0].text
+         if len(tmp) > 3:
+             singer.sex, singer.group = tmp.split(',')
+         else:
+             singer.sex, singer.group = '.', '.'
+         singer.group.strip()
+         singer.fan = int(driver.find_elements_by_css_selector('#conts > div.section_atist > div > div.atist_dtl_info > div > span > span')[0].text.replace(',', ''))
+         singers.append(singer)
+ 
+     return singers
+ 
+ with open('singer.pickle', 'rb') as f:
+     before = pickle.load(f)
+ print(len(before))
+ 
+ data = GetMelonData()
+ 
+ 
+ with open('singer.pickle', 'wb') as f:
+     pickle.dump(before + data, f)
+ 
+ print("Done")
\ No newline at end of file
--- a/src/collect_by_melon.py → src/collection/collect_song.py
View file @c9b2f4f
+++ b/src/collect_by_melon.py → src/collection/collect_song.py
View file @c9b2f4f
@@ -3,12 +3,11 @@ from selenium import webdriver
 from song import *
 
 WAIT_TIME = 5
- YEAR = '2021년'
- #MONTH = ['01월', '02월']
- #MONTH = ['03월', '04월']
- MONTH = ['05월', '06월']
+ YEAR = '2020년'
+ #MONTH = ['01월', '02월', '03월']
+ #MONTH = ['04월', '05월', '06월']
 #MONTH = ['07월', '08월', '09월']
- #MONTH = ['10월', '11월', '12월']
+ MONTH = ['10월', '11월', '12월']
 
 def GetMelonData():
 
--- a/src/collection/get_singer.py 0 → 100644
View file @c9b2f4f
+++ b/src/collection/get_singer.py 0 → 100644
View file @c9b2f4f
+ import pickle
+ from song import *
+ 
+ data = []
+ for filename in range(1112, 2122, 202):
+     with open('data/' + str(filename)+'.pickle', 'rb') as f:
+         tmp = pickle.load(f)
+     data.extend(tmp)
+ 
+ singers = set()
+ for d in data:
+     singers.add(d.singer)
+ 
+ print("size : ", len(singers))
+ print(list(singers))
+ #with open('singer_name.pickle', 'wb') as f:
+ #    pickle.dump(list(singers), f)
\ No newline at end of file
--- a/src/collection/pickle_to_csv_singer.py 0 → 100644
View file @c9b2f4f
+++ b/src/collection/pickle_to_csv_singer.py 0 → 100644
View file @c9b2f4f
+ import csv, pickle
+ from singer import *
+ 
+ 
+ data = []
+ with open('./data/singer.pickle', 'rb') as f:
+     data = pickle.load(f)
+ 
+ f = open('./data/singer.csv', 'w', newline='', encoding='UTF-8')
+ wr = csv.writer(f)
+ 
+ for singer in data:
+     wr.writerow(singer.getRow())
+ 
+ f.close()
\ No newline at end of file
--- a/src/pickle_to_csv.py → src/collection/pickle_to_csv_song.py
View file @c9b2f4f
+++ b/src/pickle_to_csv.py → src/collection/pickle_to_csv_song.py
View file @c9b2f4f
- import re, csv, pickle
+ import re, csv, pickle, nltk
 from song import *
 from PyKomoran import *
 from textrank import KeywordSummarizer
+ #nltk.download('averaged_perceptron_tagger')
 
 def komoran_tokenize(sent):
     words = sent.split()
-     words = [w for w in words if ('/NNP' in w or '/NNG' in w or '/SL' in w)]
+     for i in range(len(words)):
+         if words[i].endswith('/SL') and len(words[i]) > 4:
+             words[i] = words[i][:-3]
+             words[i] = '/'.join(nltk.pos_tag(nltk.word_tokenize(words[i]))[0])
+             if words[i].endswith('/NN'):
+                 words[i] += 'P'
+     words = [w for w in words if '/NNP' in w or '/NNG' in w  or '/FW' in w or '/JJ' in w]
+ 
     return words
 
 data = []
 for filename in range(1112, 2122, 202):
-     with open(str(filename)+'.pickle', 'rb') as f:
+     with open('data/'+str(filename)+'.pickle', 'rb') as f:
         tmp = pickle.load(f)
     data.extend(tmp)
 
- f = open('data.csv', 'w', newline='', encoding='UTF-8')
+ f = open('dataaaa.csv', 'w', newline='', encoding='UTF-8')
 wr = csv.writer(f)
 komoran = Komoran('STABLE')
 
@@ -36,7 +44,7 @@ for i in range(len(data)):
             window = -1,
             verbose = False
         )
-         if len(sents) != 0:
+         if len(sents) > 5:
             keywords = keyword_extractor.summarize(sents, topk=5)
             data[i].keywords = list(map(lambda x : x[0][:x[0].find('/')], keywords))
 
--- a/src/collection/preprocessing_edge.py 0 → 100644
View file @c9b2f4f
+++ b/src/collection/preprocessing_edge.py 0 → 100644
View file @c9b2f4f
+ import csv
+ 
+ songs = []
+ f = open('song.csv', 'r', encoding='utf-8')
+ rdr = csv.reader(f)
+ for line in rdr:
+     songs.append(line)
+ 
+ 
+ f = open('data_edge.csv', 'w', newline='', encoding='UTF-8')
+ wr = csv.writer(f)
+ 
+ 
+ for i in range(len(songs)):
+     for j in range(i + 1, len(songs)):
+         if songs[i][4] == songs[j][4]:
+             wr.writerow([i, j])
+         elif songs[i][0] == songs[j][0] and songs[i][1] == songs[j][1] and int(songs[j][2]) - int(songs[i][2]) <= 5:
+             wr.writerow([i, j])
\ No newline at end of file
--- a/src/collection/preprocessing_node.py 0 → 100644
View file @c9b2f4f
+++ b/src/collection/preprocessing_node.py 0 → 100644
View file @c9b2f4f
+ import csv
+ 
+ group = {'솔로' : 1, '그룹' : 2}
+ sex = {'남성' : 1, '여성' : 2, '혼성' : 3}
+ genre = dict()
+ genre_idx = 1
+ 
+ songs = []
+ f = open('song.csv', 'r', encoding='utf-8')
+ rdr = csv.reader(f)
+ for line in rdr:
+     songs.append(line)
+ 
+ singers = []
+ f = open('singer.csv', 'r', encoding='utf-8')
+ rdr = csv.reader(f)
+ for line in rdr:
+     singers.append(line)
+ 
+ singers_dict = {}
+ for data in singers:
+     singers_dict[data[0]] = [sex[data[1]], group[data[2]], int(data[3])]
+ 
+ 
+ f_x = open('data_x.csv', 'w', newline='', encoding='UTF-8')
+ wr_x = csv.writer(f_x)
+ 
+ f_y = open('data_y.csv', 'w', newline='', encoding='UTF-8')
+ wr_y = csv.writer(f_y)
+ 
+ for data in songs:
+     tmp = [data[0], data[1], data[8]]
+     date = data[7].split('.')
+     tmp.append((int(data[0]) - int(date[0])) * 12 + int(data[1]) - int(date[1]))
+     g = data[6].split(',')[0]
+     if genre.get(g, 0) != 0:
+         tmp.append(genre[g])
+     else:
+         genre[g] = genre_idx
+         tmp.append(genre_idx)
+         genre_idx += 1
+     tmp.extend(singers_dict[data[4]])
+ 
+     wr_x.writerow(tmp)
+     wr_y.writerow([data[2]])
\ No newline at end of file
--- a/src/collection/singer.py 0 → 100644
View file @c9b2f4f
+++ b/src/collection/singer.py 0 → 100644
View file @c9b2f4f
+ 
+ class Singer:
+     def __init__(self):
+         self.name = ''
+         self.sex = ''
+         self.group = ''
+         self.fan = 0
+ 
+     def getRow(self):
+         return [self.name, self.sex, self.group, self.fan]
\ No newline at end of file
--- a/src/song.py → src/collection/song.py
View file @c9b2f4f
+++ b/src/song.py → src/collection/song.py
View file @c9b2f4f
@@ -25,7 +25,7 @@ class Song:
         self.title.strip()
         self.album = re.sub(r"[?'/\"*<>:]", "", self.album)
         try:
-             return [self.year, self.month, self.rank, self.title, self.singer, self.album, self.genre, self.date, self.likes, self.keywords]
+             return [self.year, self.month, self.rank, self.title, self.singer, self.album, self.genre, self.date, self.likes, self.keywords, self.lyrics]
         except:
             return [self.year, self.month, self.rank, self.title, self.singer, self.album, self.genre, self.date, self.likes, []]
 
--- a/src/data.csv deleted 100644 → 0
View file @66644c6
+++ b/src/data.csv deleted 100644 → 0
View file @66644c6
--- a/src/data/data_edge.csv 0 → 100644
View file @c9b2f4f
+++ b/src/data/data_edge.csv 0 → 100644
View file @c9b2f4f
--- a/src/data/data_x.csv 0 → 100644
View file @c9b2f4f
+++ b/src/data/data_x.csv 0 → 100644
View file @c9b2f4f
--- a/src/data/data_y.csv 0 → 100644
View file @c9b2f4f
+++ b/src/data/data_y.csv 0 → 100644
View file @c9b2f4f
--- a/src/data/singer.csv 0 → 100644
View file @c9b2f4f
+++ b/src/data/singer.csv 0 → 100644
View file @c9b2f4f
--- a/src/data/song.csv 0 → 100644
View file @c9b2f4f
+++ b/src/data/song.csv 0 → 100644
View file @c9b2f4f
--- a/src/textrank/__init__.py deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__init__.py deleted 100644 → 0
View file @66644c6
- __name__ = 'textrank'
- __author__ = 'GyuhoLee'
- __version__ = '0.0.1'
- 
- from .summarizer import KeywordSummarizer
- from .summarizer import KeysentenceSummarizer
\ No newline at end of file
--- a/src/textrank/__pycache__/__init__.cpython-37.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/__init__.cpython-37.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/__init__.cpython-38.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/__init__.cpython-38.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/rank.cpython-37.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/rank.cpython-37.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/rank.cpython-38.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/rank.cpython-38.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/sentence.cpython-37.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/sentence.cpython-37.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/sentence.cpython-38.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/sentence.cpython-38.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/summarizer.cpython-37.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/summarizer.cpython-37.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/summarizer.cpython-38.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/summarizer.cpython-38.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/utils.cpython-37.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/utils.cpython-37.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/utils.cpython-38.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/utils.cpython-38.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/word.cpython-37.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/word.cpython-37.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/__pycache__/word.cpython-38.pyc deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/__pycache__/word.cpython-38.pyc deleted 100644 → 0
View file @66644c6
--- a/src/textrank/rank.py deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/rank.py deleted 100644 → 0
View file @66644c6
- import numpy as np
- from sklearn.preprocessing import normalize
- 
- def pagerank(x, df=0.85, max_iter=30, bias=None):
-     """
-     Arguments
-     ---------
-     x : scipy.sparse.csr_matrix
-         shape = (n vertex, n vertex)
-     df : float
-         Damping factor, 0 < df < 1
-     max_iter : int
-         Maximum number of iteration
-     bias : numpy.ndarray or None
-         If None, equal bias
-     Returns
-     -------
-     R : numpy.ndarray
-         PageRank vector. shape = (n vertex, 1)
-     """
- 
-     assert 0 < df < 1
- 
-     # initialize
-     A = normalize(x, axis=0, norm='l1')
-     R = np.ones(A.shape[0]).reshape(-1,1)
- 
-     # check bias
-     if bias is None:
-         bias = (1 - df) * np.ones(A.shape[0]).reshape(-1,1)
-     else:
-         bias = bias.reshape(-1,1)
-         bias = A.shape[0] * bias / bias.sum()
-         assert bias.shape[0] == A.shape[0]
-         bias = (1 - df) * bias
- 
-     # iteration
-     for _ in range(max_iter):
-         R = df * (A * R) + bias
- 
-     return R
\ No newline at end of file
--- a/src/textrank/sentence.py deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/sentence.py deleted 100644 → 0
View file @66644c6
- from collections import Counter
- import math
- import numpy as np
- import scipy as sp
- from scipy.sparse import csr_matrix
- from sklearn.metrics import pairwise_distances
- 
- from .utils import scan_vocabulary
- from .utils import tokenize_sents
- 
- 
- def sent_graph(sents, tokenize=None, min_count=2, min_sim=0.3,
-     similarity=None, vocab_to_idx=None, verbose=False):
-     """
-     Arguments
-     ---------
-     sents : list of str
-         Sentence list
-     tokenize : callable
-         tokenize(sent) return list of str
-     min_count : int
-         Minimum term frequency
-     min_sim : float
-         Minimum similarity between sentences
-     similarity : callable or str
-         similarity(s1, s2) returns float
-         s1 and s2 are list of str.
-         available similarity = [callable, 'cosine', 'textrank']
-     vocab_to_idx : dict
-         Vocabulary to index mapper.
-         If None, this function scan vocabulary first.
-     verbose : Boolean
-         If True, verbose mode on
-     Returns
-     -------
-     sentence similarity graph : scipy.sparse.csr_matrix
-         shape = (n sents, n sents)
-     """
- 
-     if vocab_to_idx is None:
-         idx_to_vocab, vocab_to_idx = scan_vocabulary(sents, tokenize, min_count)
-     else:
-         idx_to_vocab = [vocab for vocab, _ in sorted(vocab_to_idx.items(), key=lambda x:x[1])]
- 
-     x = vectorize_sents(sents, tokenize, vocab_to_idx)
-     if similarity == 'cosine':
-         x = numpy_cosine_similarity_matrix(x, min_sim, verbose, batch_size=1000)
-     else:
-         x = numpy_textrank_similarity_matrix(x, min_sim, verbose, batch_size=1000)
-     return x
- 
- def vectorize_sents(sents, tokenize, vocab_to_idx):
-     rows, cols, data = [], [], []
-     for i, sent in enumerate(sents):
-         counter = Counter(tokenize(sent))
-         for token, count in counter.items():
-             j = vocab_to_idx.get(token, -1)
-             if j == -1:
-                 continue
-             rows.append(i)
-             cols.append(j)
-             data.append(count)
-     n_rows = len(sents)
-     n_cols = len(vocab_to_idx)
-     return csr_matrix((data, (rows, cols)), shape=(n_rows, n_cols))
- 
- def numpy_cosine_similarity_matrix(x, min_sim=0.3, verbose=True, batch_size=1000):
-     n_rows = x.shape[0]
-     mat = []
-     for bidx in range(math.ceil(n_rows / batch_size)):
-         b = int(bidx * batch_size)
-         e = min(n_rows, int((bidx+1) * batch_size))
-         psim = 1 - pairwise_distances(x[b:e], x, metric='cosine')
-         rows, cols = np.where(psim >= min_sim)
-         data = psim[rows, cols]
-         mat.append(csr_matrix((data, (rows, cols)), shape=(e-b, n_rows)))
-         if verbose:
-             print('\rcalculating cosine sentence similarity {} / {}'.format(b, n_rows), end='')
-     mat = sp.sparse.vstack(mat)
-     if verbose:
-         print('\rcalculating cosine sentence similarity was done with {} sents'.format(n_rows))
-     return mat
- 
- def numpy_textrank_similarity_matrix(x, min_sim=0.3, verbose=True, min_length=1, batch_size=1000):
-     n_rows, n_cols = x.shape
- 
-     # Boolean matrix
-     rows, cols = x.nonzero()
-     data = np.ones(rows.shape[0])
-     z = csr_matrix((data, (rows, cols)), shape=(n_rows, n_cols))
- 
-     # Inverse sentence length
-     size = np.asarray(x.sum(axis=1)).reshape(-1)
-     size[np.where(size <= min_length)] = 10000
-     size = np.log(size)
- 
-     mat = []
-     for bidx in range(math.ceil(n_rows / batch_size)):
- 
-         # slicing
-         b = int(bidx * batch_size)
-         e = min(n_rows, int((bidx+1) * batch_size))
- 
-         # dot product
-         inner = z[b:e,:] * z.transpose()
- 
-         # sentence len[i,j] = size[i] + size[j]
-         norm = size[b:e].reshape(-1,1) + size.reshape(1,-1)
-         norm = norm ** (-1)
-         norm[np.where(norm == np.inf)] = 0
- 
-         # normalize
-         sim = inner.multiply(norm).tocsr()
-         rows, cols = (sim >= min_sim).nonzero()
-         data = np.asarray(sim[rows, cols]).reshape(-1)
- 
-         # append
-         mat.append(csr_matrix((data, (rows, cols)), shape=(e-b, n_rows)))
- 
-         if verbose:
-             print('\rcalculating textrank sentence similarity {} / {}'.format(b, n_rows), end='')
- 
-     mat = sp.sparse.vstack(mat)
-     if verbose:
-         print('\rcalculating textrank sentence similarity was done with {} sents'.format(n_rows))
- 
-     return mat
- 
- def graph_with_python_sim(tokens, verbose, similarity, min_sim):
-     if similarity == 'cosine':
-         similarity = cosine_sent_sim
-     elif callable(similarity):
-         similarity = similarity
-     else:
-         similarity = textrank_sent_sim
- 
-     rows, cols, data = [], [], []
-     n_sents = len(tokens)
-     for i, tokens_i in enumerate(tokens):
-         if verbose and i % 1000 == 0:
-             print('\rconstructing sentence graph {} / {} ...'.format(i, n_sents), end='')
-         for j, tokens_j in enumerate(tokens):
-             if i >= j:
-                 continue
-             sim = similarity(tokens_i, tokens_j)
-             if sim < min_sim:
-                 continue
-             rows.append(i)
-             cols.append(j)
-             data.append(sim)
-     if verbose:
-         print('\rconstructing sentence graph was constructed from {} sents'.format(n_sents))
-     return csr_matrix((data, (rows, cols)), shape=(n_sents, n_sents))
- 
- def textrank_sent_sim(s1, s2):
-     """
-     Arguments
-     ---------
-     s1, s2 : list of str
-         Tokenized sentences
-     Returns
-     -------
-     Sentence similarity : float
-         Non-negative number
-     """
-     n1 = len(s1)
-     n2 = len(s2)
-     if (n1 <= 1) or (n2 <= 1):
-         return 0
-     common = len(set(s1).intersection(set(s2)))
-     base = math.log(n1) + math.log(n2)
-     return common / base
- 
- def cosine_sent_sim(s1, s2):
-     """
-     Arguments
-     ---------
-     s1, s2 : list of str
-         Tokenized sentences
-     Returns
-     -------
-     Sentence similarity : float
-         Non-negative number
-     """
-     if (not s1) or (not s2):
-         return 0
- 
-     s1 = Counter(s1)
-     s2 = Counter(s2)
-     norm1 = math.sqrt(sum(v ** 2 for v in s1.values()))
-     norm2 = math.sqrt(sum(v ** 2 for v in s2.values()))
-     prod = 0
-     for k, v in s1.items():
-         prod += v * s2.get(k, 0)
-     return prod / (norm1 * norm2)
\ No newline at end of file
--- a/src/textrank/summarizer.py deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/summarizer.py deleted 100644 → 0
View file @66644c6
- import numpy as np
- from .rank import pagerank
- from .sentence import sent_graph
- from .word import word_graph
- 
- 
- class KeywordSummarizer:
-     """
-     Arguments
-     ---------
-     sents : list of str
-         Sentence list
-     tokenize : callable
-         Tokenize function: tokenize(str) = list of str
-     min_count : int
-         Minumum frequency of words will be used to construct sentence graph
-     window : int
-         Word cooccurrence window size. Default is -1.
-         '-1' means there is cooccurrence between two words if the words occur in a sentence
-     min_cooccurrence : int
-         Minimum cooccurrence frequency of two words
-     vocab_to_idx : dict or None
-         Vocabulary to index mapper
-     df : float
-         PageRank damping factor
-     max_iter : int
-         Number of PageRank iterations
-     verbose : Boolean
-         If True, it shows training progress
-     """
-     def __init__(self, sents=None, tokenize=None, min_count=2,
-         window=-1, min_cooccurrence=2, vocab_to_idx=None,
-         df=0.85, max_iter=30, verbose=False):
- 
-         self.tokenize = tokenize
-         self.min_count = min_count
-         self.window = window
-         self.min_cooccurrence = min_cooccurrence
-         self.vocab_to_idx = vocab_to_idx
-         self.df = df
-         self.max_iter = max_iter
-         self.verbose = verbose
- 
-         if sents is not None:
-             self.train_textrank(sents)
- 
-     def train_textrank(self, sents, bias=None):
-         """
-         Arguments
-         ---------
-         sents : list of str
-             Sentence list
-         bias : None or numpy.ndarray
-             PageRank bias term
-         Returns
-         -------
-         None
-         """
- 
-         g, self.idx_to_vocab = word_graph(sents,
-             self.tokenize, self.min_count,self.window,
-             self.min_cooccurrence, self.vocab_to_idx, self.verbose)
-         self.R = pagerank(g, self.df, self.max_iter, bias).reshape(-1)
-         if self.verbose:
-             print('trained TextRank. n words = {}'.format(self.R.shape[0]))
- 
-     def keywords(self, topk=30):
-         """
-         Arguments
-         ---------
-         topk : int
-             Number of keywords selected from TextRank
-         Returns
-         -------
-         keywords : list of tuple
-             Each tuple stands for (word, rank)
-         """
-         if not hasattr(self, 'R'):
-             raise RuntimeError('Train textrank first or use summarize function')
-         idxs = self.R.argsort()[-topk:]
-         keywords = [(self.idx_to_vocab[idx], self.R[idx]) for idx in reversed(idxs)]
-         return keywords
- 
-     def summarize(self, sents, topk=30):
-         """
-         Arguments
-         ---------
-         sents : list of str
-             Sentence list
-         topk : int
-             Number of keywords selected from TextRank
-         Returns
-         -------
-         keywords : list of tuple
-             Each tuple stands for (word, rank)
-         """
-         self.train_textrank(sents)
-         return self.keywords(topk)
- 
- 
- class KeysentenceSummarizer:
-     """
-     Arguments
-     ---------
-     sents : list of str
-         Sentence list
-     tokenize : callable
-         Tokenize function: tokenize(str) = list of str
-     min_count : int
-         Minumum frequency of words will be used to construct sentence graph
-     min_sim : float
-         Minimum similarity between sentences in sentence graph
-     similarity : str
-         available similarity = ['cosine', 'textrank']
-     vocab_to_idx : dict or None
-         Vocabulary to index mapper
-     df : float
-         PageRank damping factor
-     max_iter : int
-         Number of PageRank iterations
-     verbose : Boolean
-         If True, it shows training progress
-     """
-     def __init__(self, sents=None, tokenize=None, min_count=2,
-         min_sim=0.3, similarity=None, vocab_to_idx=None,
-         df=0.85, max_iter=30, verbose=False):
- 
-         self.tokenize = tokenize
-         self.min_count = min_count
-         self.min_sim = min_sim
-         self.similarity = similarity
-         self.vocab_to_idx = vocab_to_idx
-         self.df = df
-         self.max_iter = max_iter
-         self.verbose = verbose
- 
-         if sents is not None:
-             self.train_textrank(sents)
- 
-     def train_textrank(self, sents, bias=None):
-         """
-         Arguments
-         ---------
-         sents : list of str
-             Sentence list
-         bias : None or numpy.ndarray
-             PageRank bias term
-             Shape must be (n_sents,)
-         Returns
-         -------
-         None
-         """
-         g = sent_graph(sents, self.tokenize, self.min_count,
-             self.min_sim, self.similarity, self.vocab_to_idx, self.verbose)
-         self.R = pagerank(g, self.df, self.max_iter, bias).reshape(-1)
-         if self.verbose:
-             print('trained TextRank. n sentences = {}'.format(self.R.shape[0]))
- 
-     def summarize(self, sents, topk=30, bias=None):
-         """
-         Arguments
-         ---------
-         sents : list of str
-             Sentence list
-         topk : int
-             Number of key-sentences to be selected.
-         bias : None or numpy.ndarray
-             PageRank bias term
-             Shape must be (n_sents,)
-         Returns
-         -------
-         keysents : list of tuple
-             Each tuple stands for (sentence index, rank, sentence)
-         Usage
-         -----
-             >>> from textrank import KeysentenceSummarizer
-             >>> summarizer = KeysentenceSummarizer(tokenize = tokenizer, min_sim = 0.5)
-             >>> keysents = summarizer.summarize(texts, topk=30)
-         """
-         n_sents = len(sents)
-         if isinstance(bias, np.ndarray):
-             if bias.shape != (n_sents,):
-                 raise ValueError('The shape of bias must be (n_sents,) but {}'.format(bias.shape))
-         elif bias is not None:
-             raise ValueError('The type of bias must be None or numpy.ndarray but the type is {}'.format(type(bias)))
-         self.train_textrank(sents, bias)
-         idxs = self.R.argsort()[-topk:]
-         keysents = [(idx, self.R[idx], sents[idx]) for idx in reversed(idxs)]
-         return keysents
\ No newline at end of file
--- a/src/textrank/utils.py deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/utils.py deleted 100644 → 0
View file @66644c6
- from collections import Counter
- from scipy.sparse import csr_matrix
- import numpy as np
- 
- 
- def scan_vocabulary(sents, tokenize=None, min_count=2):
-     """
-     Arguments
-     ---------
-     sents : list of str
-         Sentence list
-     tokenize : callable
-         tokenize(str) returns list of str
-     min_count : int
-         Minumum term frequency
-     Returns
-     -------
-     idx_to_vocab : list of str
-         Vocabulary list
-     vocab_to_idx : dict
-         Vocabulary to index mapper.
-     """
-     counter = Counter(w for sent in sents for w in tokenize(sent))
-     counter = {w:c for w,c in counter.items() if c >= min_count}
-     idx_to_vocab = [w for w, _ in sorted(counter.items(), key=lambda x:-x[1])]
-     vocab_to_idx = {vocab:idx for idx, vocab in enumerate(idx_to_vocab)}
-     return idx_to_vocab, vocab_to_idx
- 
- def tokenize_sents(sents, tokenize):
-     """
-     Arguments
-     ---------
-     sents : list of str
-         Sentence list
-     tokenize : callable
-         tokenize(sent) returns list of str (word sequence)
-     Returns
-     -------
-     tokenized sentence list : list of list of str
-     """
-     if tokenize is not None:
-         return [tokenize(sent) for sent in sents]
-     else:
-         return sents
- 
- def vectorize(tokens, vocab_to_idx):
-     """
-     Arguments
-     ---------
-     tokens : list of list of str
-         Tokenzed sentence list
-     vocab_to_idx : dict
-         Vocabulary to index mapper
-     Returns
-     -------
-     sentence bow : scipy.sparse.csr_matrix
-         shape = (n_sents, n_terms)
-     """
-     rows, cols, data = [], [], []
-     for i, tokens_i in enumerate(tokens):
-         for t, c in Counter(tokens_i).items():
-             j = vocab_to_idx.get(t, -1)
-             if j == -1:
-                 continue
-             rows.append(i)
-             cols.append(j)
-             data.append(c)
-     n_sents = len(tokens)
-     n_terms = len(vocab_to_idx)
-     x = csr_matrix((data, (rows, cols)), shape=(n_sents, n_terms))
-     return x
\ No newline at end of file
--- a/src/textrank/word.py deleted 100644 → 0
View file @66644c6
+++ b/src/textrank/word.py deleted 100644 → 0
View file @66644c6
- from collections import defaultdict
- from scipy.sparse import csr_matrix
- 
- from .utils import scan_vocabulary
- from .utils import tokenize_sents
- 
- 
- def word_graph(sents, tokenize=None, min_count=2, window=2,
-     min_cooccurrence=2, vocab_to_idx=None, verbose=False):
-     """
-     Arguments
-     ---------
-     sents : list of str
-         Sentence list
-     tokenize : callable
-         tokenize(str) returns list of str
-     min_count : int
-         Minumum term frequency
-     window : int
-         Co-occurrence window size
-     min_cooccurrence : int
-         Minimum cooccurrence frequency
-     vocab_to_idx : dict
-         Vocabulary to index mapper.
-         If None, this function scan vocabulary first.
-     verbose : Boolean
-         If True, verbose mode on
-     Returns
-     -------
-     co-occurrence word graph : scipy.sparse.csr_matrix
-     idx_to_vocab : list of str
-         Word list corresponding row and column
-     """
-     if vocab_to_idx is None:
-         idx_to_vocab, vocab_to_idx = scan_vocabulary(sents, tokenize, min_count)
-     else:
-         idx_to_vocab = [vocab for vocab, _ in sorted(vocab_to_idx.items(), key=lambda x:x[1])]
- 
-     tokens = tokenize_sents(sents, tokenize)
-     g = cooccurrence(tokens, vocab_to_idx, window, min_cooccurrence, verbose)
-     return g, idx_to_vocab
- 
- def cooccurrence(tokens, vocab_to_idx, window=2, min_cooccurrence=2, verbose=False):
-     """
-     Arguments
-     ---------
-     tokens : list of list of str
-         Tokenized sentence list
-     vocab_to_idx : dict
-         Vocabulary to index mapper
-     window : int
-         Co-occurrence window size
-     min_cooccurrence : int
-         Minimum cooccurrence frequency
-     verbose : Boolean
-         If True, verbose mode on
-     Returns
-     -------
-     co-occurrence matrix : scipy.sparse.csr_matrix
-         shape = (n_vocabs, n_vocabs)
-     """
-     counter = defaultdict(int)
-     for s, tokens_i in enumerate(tokens):
-         if verbose and s % 1000 == 0:
-             print('\rword cooccurrence counting {}'.format(s), end='')
-         vocabs = [vocab_to_idx[w] for w in tokens_i if w in vocab_to_idx]
-         n = len(vocabs)
-         for i, v in enumerate(vocabs):
-             if window <= 0:
-                 b, e = 0, n
-             else:
-                 b = max(0, i - window)
-                 e = min(i + window, n)
-             for j in range(b, e):
-                 if i == j:
-                     continue
-                 counter[(v, vocabs[j])] += 1
-                 counter[(vocabs[j], v)] += 1
-     counter = {k:v for k,v in counter.items() if v >= min_cooccurrence}
-     n_vocabs = len(vocab_to_idx)
-     if verbose:
-         print('\rword cooccurrence counting from {} sents was done'.format(s+1))
-     return dict_to_mat(counter, n_vocabs, n_vocabs)
- 
- def dict_to_mat(d, n_rows, n_cols):
-     """
-     Arguments
-     ---------
-     d : dict
-         key : (i,j) tuple
-         value : float value
-     Returns
-     -------
-     scipy.sparse.csr_matrix
-     """
-     rows, cols, data = [], [], []
-     for (i, j), v in d.items():
-         rows.append(i)
-         cols.append(j)
-         data.append(v)
-     return csr_matrix((data, (rows, cols)), shape=(n_rows, n_cols))
\ No newline at end of file