Add gigaword and twitter tag vector model

이현규
Commit 4e51eab0401b0d5b33af9f7eb40040cc456b21ec 4e51eab0 1 parent 36d6d6b7
Showing 7 changed files with 30 additions and 26 deletions
src/inference_pb.py
src/new_model/gigaword100_video_vectors.model
src/new_model/twitter100_video_vectors.model
src/pretrained_vector_loader.py
src/statics/new_kaggle_solution_40k_test.csv
src/video_recommender.py
src/video_vector_generator.py
--- a/src/inference_pb.py
View file @4e51eab
+++ b/src/inference_pb.py
View file @4e51eab
@@ -10,15 +10,17 @@ import src.video_util as videoutil
 import json
 import urllib3
+# Erase logs
 logging.disable(logging.WARNING)
 os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
 urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
-# Old model
+# Define model paths.
-MODEL_PATH = "./model/inference_model/segment_inference_model"
+MODEL_PATH = "./new_model/inference_model/segment_inference_model"
-TAG_VECTOR_MODEL_PATH = "./model/tag_vectors.model"
+# TAG_VECTOR_MODEL_PATH = "./new_model/twitter100_tag_vectors.gz"
-VIDEO_VECTOR_MODEL_PATH = "./model/video_vectors.model"
+TAG_VECTOR_MODEL_PATH = "glove-wiki-gigaword-100"
-VIDEO_TAGS_PATH = "./statics/kaggle_solution_40k.csv"
+VIDEO_VECTOR_MODEL_PATH = "./new_model/gigaword100_video_vectors.model"
+VIDEO_TAGS_PATH = "./statics/new_kaggle_solution_40k.csv"
 # Define static file paths.
 SEGMENT_LABEL_PATH = "./statics/segment_label_ids.csv"
@@ -26,11 +28,12 @@ VOCAB_PATH = "./statics/vocabulary.csv"
 # Define parameters.
 TAG_TOP_K = 5
-VIDEO_TOP_K = 10
+VIDEO_TOP_K = 5
 # Target featuremap.
 FEATUREMAP_PATH = "./featuremaps/toy-3-features.pb"
+
 def get_segments(batch_video_mtx, batch_num_frames, segment_size):
     """Get segment-level inputs from frame-level features."""
     video_batch_size = batch_video_mtx.shape[0]
@@ -232,18 +235,5 @@ def inference_pb(file_path, threshold):
 if __name__ == '__main__':
-    # result = inference_pb(FEATUREMAP_PATH, 5)
+    result = inference_pb(FEATUREMAP_PATH, VIDEO_TOP_K)
-    # print("=============== Old Model ===============")
-    # print(result["tag_result"])
-    # print(json.dumps(result["video_result"], sort_keys=True, indent=2))
-
-    # New model
-    MODEL_PATH = "./new_model/inference_model/segment_inference_model"
-    # TAG_VECTOR_MODEL_PATH = "./new_model/googlenews_tag_vectors.bin"
-    # VIDEO_VECTOR_MODEL_PATH = "./new_model/googlenews_video_vectors.model"
-    TAG_VECTOR_MODEL_PATH = "./new_model/tag_vectors.model"
-    VIDEO_VECTOR_MODEL_PATH = "./new_model/video_vectors.model"
-    VIDEO_TAGS_PATH = "./statics/new_kaggle_solution_40k.csv"
-    result = inference_pb(FEATUREMAP_PATH, 5)
-    # print("=============== New Model ===============")
     print(json.dumps(result, sort_keys=True, indent=2))
--- a/src/new_model/gigaword100_video_vectors.model 0 → 100644
View file @4e51eab
+++ b/src/new_model/gigaword100_video_vectors.model 0 → 100644
View file @4e51eab
--- a/src/new_model/twitter100_video_vectors.model 0 → 100644
View file @4e51eab
+++ b/src/new_model/twitter100_video_vectors.model 0 → 100644
View file @4e51eab
--- a/src/pretrained_vector_loader.py 0 → 100644
View file @4e51eab
+++ b/src/pretrained_vector_loader.py 0 → 100644
View file @4e51eab
+from gensim.models.word2vec import Word2Vec
+import gensim.downloader as api
+
+corpus = api.load('text8')  # download the corpus and return it opened as an iterable
+model = Word2Vec(corpus)  # train a model from the corpus
+print(model.most_similar("car"))
+
+model.save('twitter25-tag_vectors.model')
--- a/src/statics/new_kaggle_solution_40k_test.csv deleted 100644 → 0
View file @36d6d6b
+++ b/src/statics/new_kaggle_solution_40k_test.csv deleted 100644 → 0
View file @36d6d6b
--- a/src/video_recommender.py
View file @4e51eab
+++ b/src/video_recommender.py
View file @4e51eab
 from gensim.models import Word2Vec, KeyedVectors
+import gensim.downloader as api
 import numpy as np
+
 def recommend_videos(tags, tag_model_path, video_model_path, top_k):
-    tag_vectors = Word2Vec.load(tag_model_path).wv
+    # tag_vectors = Word2Vec.load(tag_model_path).wv
     # tag_vectors = KeyedVectors.load_word2vec_format(tag_model_path, binary=True)
+    tag_vectors = api.load(tag_model_path)
     video_vectors = Word2Vec().wv.load(video_model_path)
     error_tags = []
--- a/src/video_vector_generator.py
View file @4e51eab
+++ b/src/video_vector_generator.py
View file @4e51eab
 import pandas as pd
 import numpy as np
 from gensim.models import Word2Vec, KeyedVectors
+import gensim.downloader as api
-BATCH_SIZE = 1000
+BATCH_SIZE = 1000
+VECTOR_DIMENSION = 100
 if __name__ == '__main__':
-    # tag_vectors = KeyedVectors.load_word2vec_format("new_model/GoogleNews-vectors-negative300.bin", binary=True)
+    # tag_vectors = KeyedVectors.load_word2vec_format("new_model/twitter25_tag_vectors.model")
-    tag_vectors = Word2Vec.load("new_model/tag_vectors.model").wv
+    # tag_vectors = Word2Vec.load("new_model/text8_tag_vectors.model").wv
-    video_vectors = Word2Vec().wv   # Empty model
+    tag_vectors = api.load("glove-wiki-gigaword-100")  # download the model and return as object ready for use
+    video_vectors = Word2Vec(size=VECTOR_DIMENSION).wv   # Empty model
     # Load video recommendation tags.
     video_tags = pd.read_csv('statics/new_kaggle_solution_40k.csv')
@@ -20,7 +23,7 @@ if __name__ == '__main__':
     for i, row in video_tags.iterrows():
         video_id = row[0]
-        video_vector = np.zeros(300)
+        video_vector = np.zeros(VECTOR_DIMENSION)
         for segment_index in range(1, 6):
             tag, weight = row[segment_index].split(":")
             if tag in tag_vectors.vocab: