[Question]: ernie3预训练报错 #6716

ZTurboX · 2023-08-14T09:43:33Z

请提出你的问题

使用ernie-1.0中的文档训练ernie-3.0-tiny-micro-v2-zh报错
Traceback (most recent call last):
File "run_pretrain.py", line 762, in
do_train(config)
File "run_pretrain.py", line 459, in do_train
train_data_loader, valid_data_loader, test_data_loader = create_pretrained_dataset(
File "run_pretrain.py", line 73, in create_pretrained_dataset
train_ds, valid_ds, test_ds = build_train_valid_test_datasets(
File "/opt/llm_pretrain/data_tools/dataset_utils.py", line 621, in build_train_valid_test_datasets
output = get_datasets_weights_and_num_samples(data_prefix, train_valid_test_num_samples)
File "/opt/llm_pretrain/data_tools/dataset_utils.py", line 140, in get_datasets_weights_and_num_samples
assert weight_sum > 0.0
AssertionError

制作数据脚本为
python create_pretraining_data.py
--model_name ernie-3.0-tiny-micro-v2-zh
--tokenizer_name ErnieTokenizer
--input_path ./data/llm_data.jsonl
--split_sentences
--chinese
--cn_whole_word_segment
--cn_seg_func jieba
--output_prefix llm_data
--workers 32
--log_interval 10000

文档中数据输出格式是npy和npz，而我这里是bin和idx，是不是数据处理有问题

w5688414 · 2024-05-08T07:32:17Z

请问您的paddle和paddlenlp的版本是多少？

ZTurboX added the question Further information is requested label Aug 14, 2023

github-actions bot added the triage label Aug 14, 2023

paddle-bot bot assigned wawltor Feb 26, 2024

paddle-bot bot closed this as completed May 13, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Question]: ernie3预训练报错 #6716

[Question]: ernie3预训练报错 #6716

ZTurboX commented Aug 14, 2023

w5688414 commented May 8, 2024

[Question]: ernie3预训练报错 #6716

[Question]: ernie3预训练报错 #6716

Comments

ZTurboX commented Aug 14, 2023

请提出你的问题

w5688414 commented May 8, 2024