bert_SA_datasetpy

bongminkim
Commit 877c7eff222222f909e4c7b34597d2b0136ba8fc 877c7eff 1 parent c951d5e9
Showing 1 changed file with 61 additions and 0 deletions
KoBERT/dataset_.py
--- a/KoBERT/dataset_.py 0 → 100644
View file @877c7ef
+++ b/KoBERT/dataset_.py 0 → 100644
View file @877c7ef
+ import torch
+ from torch.utils.data import Dataset
+ import gluonnlp as nlp
+ import numpy as np
+ from kobert.utils import get_tokenizer
+ from KoBERT.Sentiment_Analysis_BERT_main import bertmodel, vocab
+ 
+ tokenizer = get_tokenizer()
+ tok = nlp.data.BERTSPTokenizer(tokenizer, vocab, lower=False)
+ 
+ class BERTDataset(Dataset):
+     def __init__(self, dataset, sent_idx, label_idx, bert_tokenizer, max_len,
+                  pad, pair):
+         transform = nlp.data.BERTSentenceTransform(
+             bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)
+ 
+         self.sentences = [transform([i[sent_idx]]) for i in dataset]
+         self.labels = [np.int32(i[label_idx]) for i in dataset]
+ 
+     def __getitem__(self, i):
+         return (self.sentences[i] + (self.labels[i], ))
+ 
+     def __len__(self):
+         return (len(self.labels))
+ 
+ class infer_BERTDataset(Dataset):
+     def __init__(self, dataset, sent_idx, bert_tokenizer, max_len,
+                  pad, pair):
+         transform = nlp.data.BERTSentenceTransform(
+             bert_tokenizer, max_seq_length=max_len, pad=pad, pair=pair)
+ 
+         self.sentences = [transform([i[sent_idx]]) for i in dataset]
+ 
+     def __getitem__(self, i):
+         return (self.sentences[i])
+ 
+ def get_loader(args):
+     dataset_train = nlp.data.TSVDataset("ratings_train.txt", field_indices=[1, 2], num_discard_samples=1)
+     dataset_test = nlp.data.TSVDataset("ratings_test.txt", field_indices=[1, 2], num_discard_samples=1)
+     #chatbot_0325_label_0.txt
+     data_train = BERTDataset(dataset_train, 0, 1, tok, args.max_len, True, False)
+     data_test = BERTDataset(dataset_test, 0, 1, tok, args.max_len, True, False)
+ 
+     train_dataloader = torch.utils.data.DataLoader(
+         data_train, batch_size=args.batch_size, drop_last=True, shuffle=True)
+     test_dataloader = torch.utils.data.DataLoader(
+         data_test, batch_size=args.batch_size, drop_last=False, shuffle=False)
+ 
+     return train_dataloader, test_dataloader
+ 
+ def infer(args, src):
+    SRC_data = infer_BERTDataset(src, 0, tok, args.max_len, True, False)
+    return SRC_data
+ 
+ # import csv
+ # num=0
+ # f = open('chatbot_0325_label_0.txt', 'r', encoding='utf-8')
+ # rdr = csv.reader(f, delimiter='\t')
+ # for idx, lin in enumerate(rdr):
+ #     num+=1
+ # print(num)