Merge pull request megagonlabs#173 from megagonlabs/feature/spacy_v3

hiroshi-matsuda-rit · web-flow · commit a563bac9f133 · 2021-08-22T17:07:56.000+09:00
update configs
diff --git a/config/ja_ginza.analysis.cfg b/config/ja_ginza.analysis.cfg
@@ -0,0 +1,200 @@
+[paths]
+train = "corpus/ja_ginza-ud-train.ne.rea.random_sents.spacy"
+dev = "corpus/ja_ginza-ud-dev.ne.rea.random_sents.spacy"
+vectors = null
+init_tok2vec = null
+
+[system]
+gpu_allocator = null
+seed = 0
+
+[nlp]
+lang = "ja"
+pipeline = ["tok2vec","parser","attribute_ruler","ner","morphologizer","compound_splitter","bunsetu_recognizer"]
+batch_size = 1000
+disabled = ["attribute_ruler"]
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+
+[nlp.tokenizer]
+@tokenizers = "spacy.ja.JapaneseTokenizer"
+split_mode = "C"
+
+[components]
+
+[components.attribute_ruler]
+factory = "attribute_ruler"
+validate = false
+
+[components.bunsetu_recognizer]
+factory = "bunsetu_recognizer"
+remain_bunsetu_suffix = false
+
+[components.compound_splitter]
+factory = "compound_splitter"
+split_mode = null
+
+[components.morphologizer]
+factory = "morphologizer"
+
+[components.morphologizer.model]
+@architectures = "spacy.Tagger.v1"
+nO = null
+
+[components.morphologizer.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+upstream = "*"
+
+[components.ner]
+factory = "ner"
+incorrect_spans_key = null
+moves = null
+update_with_oracle_cut_size = 100
+
+[components.ner.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = true
+nO = null
+
+[components.ner.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+upstream = "*"
+
+[components.parser]
+factory = "parser"
+learn_tokens = false
+min_action_freq = 30
+moves = null
+update_with_oracle_cut_size = 100
+
+[components.parser.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "parser"
+extra_state_tokens = false
+hidden_width = 128
+maxout_pieces = 3
+use_upper = true
+nO = null
+
+[components.parser.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+upstream = "*"
+
+[components.tok2vec]
+factory = "tok2vec"
+
+[components.tok2vec.model]
+@architectures = "spacy.Tok2Vec.v2"
+
+[components.tok2vec.model.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = ${components.tok2vec.model.encode.width}
+attrs = ["ORTH","SHAPE"]
+rows = [5000,2500]
+include_static_vectors = true
+
+[components.tok2vec.model.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 256
+depth = 8
+window_size = 1
+maxout_pieces = 3
+
+[corpora]
+
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 2000
+gold_preproc = false
+limit = 0
+augmenter = null
+
+[training]
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+seed = ${system.seed}
+gpu_allocator = ${system.gpu_allocator}
+dropout = 0.1
+accumulate_gradient = 1
+patience = 0
+max_epochs = 0
+max_steps = 50000
+eval_frequency = 200
+frozen_components = []
+before_to_disk = null
+annotating_components = []
+
+[training.batcher]
+@batchers = "spacy.batch_by_words.v1"
+discard_oversize = false
+tolerance = 0.2
+get_length = null
+
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+t = 0.0
+
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = false
+eps = 0.00000001
+learn_rate = 0.001
+
+[training.score_weights]
+dep_uas = 0.25
+dep_las = 0.25
+dep_las_per_type = null
+sents_p = null
+sents_r = null
+sents_f = 0.1
+ents_f = 0.25
+ents_p = 0.0
+ents_r = 0.0
+ents_per_type = null
+pos_acc = 0.15
+morph_acc = 0.0
+morph_per_feat = null
+tag_acc = 0.0
+
+[pretraining]
+
+[initialize]
+vectors = "vectors/"
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+
+[initialize.components]
+
+[initialize.tokenizer]
diff --git a/config/ja_ginza.meta.json b/config/ja_ginza.meta.json
@@ -1,7 +1,7 @@
 {
   "lang":"ja",
   "name":"ginza",
-  "version":"5.0.0a1",
+  "version":"5.0.0b1",
   "description":"Japanese multi-task CNN trained on UD-Japanese BCCWJ r2.8 + GSK2014-A(2019). Assigns word2vec token vectors. Components: tok2vec, parser, ner, morphologizer, atteribute_ruler, compound_splitter, bunsetu_recognizer.",
   "author":"Megagon Labs Tokyo.",
   "email":"ginza@megagon.ai",
@@ -55,6 +55,6 @@
   "requirements":[
     "sudachipy>=0.5.2,<0.6.0",
     "sudachidict_core>=20210608",
-    "ginza>=5.0.0a1,<5.1.0"
+    "ginza>=5.0.0b1,<5.1.0"
   ]
 }
diff --git a/config/ja_ginza_bert_char_v2_basic.analysis.cfg b/config/ja_ginza_bert_char_v2_basic.analysis.cfg
@@ -29,7 +29,7 @@ validate = false
 
 [components.bunsetu_recognizer]
 factory = "bunsetu_recognizer"
-remain_bunsetu_suffix = true
+remain_bunsetu_suffix = false
 
 [components.compound_splitter]
 factory = "compound_splitter"
diff --git a/config/ja_ginza_bert_char_v2_basic.meta.json b/config/ja_ginza_bert_char_v2_basic.meta.json
@@ -1,7 +1,7 @@
 {
   "lang":"ja",
   "name":"ginza_bert_v2",
-  "version":"5.0.0a1",
+  "version":"5.0.0b1",
   "description":"Japanese multi-task CNN trained on UD-Japanese BCCWJ r2.8 + GSK2014-A(2019) + cl-tohoku/bert-base-japanese-char-v2(BasicTokenizer). Components: transformer, parser, atteribute_ruler, ner, morphologizer, compound_splitter, bunsetu_recognizer.",
   "author":"Megagon Labs Tokyo.",
   "email":"ginza@megagon.ai",
@@ -56,7 +56,7 @@
     "sudachipy>=0.5.2,<0.6.0",
     "sudachidict_core>=20210608",
     "sudachitra>=0.1.4,<0.2.0",
-    "ginza-transformers>=0.2.0,<0.3.0",
-    "ginza>=5.0.0a1,<5.1.0"
+    "ginza-transformers>=0.3.0,<1.0.0",
+    "ginza>=5.0.0b1,<5.1.0"
   ]
 }
diff --git a/config/ja_ginza_bert_v2.analysis.cfg b/config/ja_ginza_bert_v2.analysis.cfg
@@ -29,7 +29,7 @@ validate = false
 
 [components.bunsetu_recognizer]
 factory = "bunsetu_recognizer"
-remain_bunsetu_suffix = true
+remain_bunsetu_suffix = false
 
 [components.compound_splitter]
 factory = "compound_splitter"
diff --git a/config/ja_ginza_bert_v2.meta.json b/config/ja_ginza_bert_v2.meta.json
@@ -59,6 +59,6 @@
     "fugashi>=1.1.1",
     "unidic-lite>=1.0.8",
     "ginza-transformers>=0.3.0,<1.0.0",
-    "ginza>=5.0.0a1,<5.1.0"
+    "ginza>=5.0.0b1,<5.1.0"
   ]
 }
diff --git a/config/ja_ginza_electra.meta.json b/config/ja_ginza_electra.meta.json
@@ -1,7 +1,7 @@
 {
   "lang":"ja",
   "name":"ginza_electra",
-  "version":"5.0.0a1",
+  "version":"5.0.0b1",
   "description":"Japanese multi-task CNN trained on UD-Japanese BCCWJ r2.8 + GSK2014-A(2019) + transformers-ud-japanese-electra--base. Components: transformer, parser, atteribute_ruler, ner, morphologizer, compound_splitter, bunsetu_recognizer.",
   "author":"Megagon Labs Tokyo.",
   "email":"ginza@megagon.ai",
@@ -56,7 +56,7 @@
     "sudachipy>=0.5.2,<0.6.0",
     "sudachidict_core>=20210608",
     "sudachitra>=0.1.4,<0.2.0",
-    "ginza-transformers>=0.2.0,<0.3.0",
-    "ginza>=5.0.0a1,<5.1.0"
+    "ginza-transformers>=0.3.0,<1.0.0",
+    "ginza>=5.0.0b1,<5.1.0"
   ]
 }

Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`{`
`2`	`2`	`"lang":"ja",`
`3`	`3`	`"name":"ginza",`
`4`		`- "version":"5.0.0a1",`
	`4`	`+ "version":"5.0.0b1",`
`5`	`5`	`"description":"Japanese multi-task CNN trained on UD-Japanese BCCWJ r2.8 + GSK2014-A(2019). Assigns word2vec token vectors. Components: tok2vec, parser, ner, morphologizer, atteribute_ruler, compound_splitter, bunsetu_recognizer.",`
`6`	`6`	`"author":"Megagon Labs Tokyo.",`
`7`	`7`	`"email":"[email protected]",`
`@@ -55,6 +55,6 @@`
`55`	`55`	`"requirements":[`
`56`	`56`	`"sudachipy>=0.5.2,<0.6.0",`
`57`	`57`	`"sudachidict_core>=20210608",`
`58`		`- "ginza>=5.0.0a1,<5.1.0"`
	`58`	`+ "ginza>=5.0.0b1,<5.1.0"`
`59`	`59`	`]`
`60`	`60`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`{`
`2`	`2`	`"lang":"ja",`
`3`	`3`	`"name":"ginza_bert_v2",`
`4`		`- "version":"5.0.0a1",`
	`4`	`+ "version":"5.0.0b1",`
`5`	`5`	`"description":"Japanese multi-task CNN trained on UD-Japanese BCCWJ r2.8 + GSK2014-A(2019) + cl-tohoku/bert-base-japanese-char-v2(BasicTokenizer). Components: transformer, parser, atteribute_ruler, ner, morphologizer, compound_splitter, bunsetu_recognizer.",`
`6`	`6`	`"author":"Megagon Labs Tokyo.",`
`7`	`7`	`"email":"[email protected]",`
`@@ -56,7 +56,7 @@`
`56`	`56`	`"sudachipy>=0.5.2,<0.6.0",`
`57`	`57`	`"sudachidict_core>=20210608",`
`58`	`58`	`"sudachitra>=0.1.4,<0.2.0",`
`59`		`- "ginza-transformers>=0.2.0,<0.3.0",`
`60`		`- "ginza>=5.0.0a1,<5.1.0"`
	`59`	`+ "ginza-transformers>=0.3.0,<1.0.0",`
	`60`	`+ "ginza>=5.0.0b1,<5.1.0"`
`61`	`61`	`]`
`62`	`62`	`}`
Original file line number	Diff line number	Diff line change
`@@ -59,6 +59,6 @@`
`59`	`59`	`"fugashi>=1.1.1",`
`60`	`60`	`"unidic-lite>=1.0.8",`
`61`	`61`	`"ginza-transformers>=0.3.0,<1.0.0",`
`62`		`- "ginza>=5.0.0a1,<5.1.0"`
	`62`	`+ "ginza>=5.0.0b1,<5.1.0"`
`63`	`63`	`]`
`64`	`64`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`{`
`2`	`2`	`"lang":"ja",`
`3`	`3`	`"name":"ginza_electra",`
`4`		`- "version":"5.0.0a1",`
	`4`	`+ "version":"5.0.0b1",`
`5`	`5`	`"description":"Japanese multi-task CNN trained on UD-Japanese BCCWJ r2.8 + GSK2014-A(2019) + transformers-ud-japanese-electra--base. Components: transformer, parser, atteribute_ruler, ner, morphologizer, compound_splitter, bunsetu_recognizer.",`
`6`	`6`	`"author":"Megagon Labs Tokyo.",`
`7`	`7`	`"email":"[email protected]",`
`@@ -56,7 +56,7 @@`
`56`	`56`	`"sudachipy>=0.5.2,<0.6.0",`
`57`	`57`	`"sudachidict_core>=20210608",`
`58`	`58`	`"sudachitra>=0.1.4,<0.2.0",`
`59`		`- "ginza-transformers>=0.2.0,<0.3.0",`
`60`		`- "ginza>=5.0.0a1,<5.1.0"`
	`59`	`+ "ginza-transformers>=0.3.0,<1.0.0",`
	`60`	`+ "ginza>=5.0.0b1,<5.1.0"`
`61`	`61`	`]`
`62`	`62`	`}`