pytorch · zhangguanheng66 · Oct 19, 2020 · Oct 14, 2020 · Oct 14, 2020
diff --git a/examples/BERT/data.py b/examples/BERT/data.py
@@ -10,7 +10,7 @@
 # Set up dataset for book corpus
 ###################################################################
 def BookCorpus(vocab, tokenizer=get_tokenizer("basic_english"),
-               data_select=('train', 'test', 'valid'), removed_tokens=[],
+               data_select=('train', 'valid', 'test'), removed_tokens=[],
                min_sentence_len=None):
 
     if isinstance(data_select, str):

diff --git a/examples/BERT/mlm_task.py b/examples/BERT/mlm_task.py
@@ -123,15 +123,15 @@ def run_main(args, rank=None):
     try:
         vocab = torch.load(args.save_vocab)
     except:
-        train_dataset, test_dataset, valid_dataset = WLMDataset()
+        train_dataset, valid_dataset, test_dataset = WLMDataset()
         old_vocab = train_dataset.vocab
         vocab = torchtext.vocab.Vocab(counter=old_vocab.freqs,
                                       specials=['<unk>', '<pad>', '<MASK>'])
         with open(args.save_vocab, 'wb') as f:
             torch.save(vocab, f)
 
     if args.dataset == 'WikiText103' or args.dataset == 'WikiText2':
-        train_dataset, test_dataset, valid_dataset = WLMDataset(vocab=vocab)
+        train_dataset, valid_dataset, test_dataset = WLMDataset(vocab=vocab)
     elif args.dataset == 'WMTNewsCrawl':
         from torchtext.experimental.datasets import WikiText2
         test_dataset, valid_dataset = WikiText2(vocab=vocab, data_select=('test', 'valid'))
@@ -150,7 +150,7 @@ def run_main(args, rank=None):
         valid_dataset = LanguageModelingDataset(val_data, vocab)
         test_dataset = LanguageModelingDataset(test_data, vocab)
     elif args.dataset == 'BookCorpus':
-        train_dataset, test_dataset, valid_dataset = BookCorpus(vocab)
+        train_dataset, valid_dataset, test_dataset = BookCorpus(vocab)
 
     train_data = process_raw_data(train_dataset.data, args)
     if rank is not None:

diff --git a/examples/BERT/ns_task.py b/examples/BERT/ns_task.py
@@ -141,7 +141,7 @@ def run_main(args, rank=None):
                                                                  single_line=False)
     elif args.dataset == 'BookCorpus':
         from data import BookCorpus
-        train_dataset, test_dataset, valid_dataset = BookCorpus(vocab, min_sentence_len=60)
+        train_dataset, valid_dataset, test_dataset = BookCorpus(vocab, min_sentence_len=60)
 
     if rank is not None:
         chunk_len = len(train_dataset.data) // args.world_size