Skip to content

sijunhe/MiduCTC-competition

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

文本智能校对大赛

日历

时间 事件
2022.7.13 比赛启动,开放报名,赛事网址,初赛A榜数据集,初赛A榜提交入口
2022.8.12 报名截止,关闭初赛A榜评测入口
2022.8.13 开放初赛B榜数据集、评测入口
2022.8.17 关闭初赛B榜数据集、评测入口
2022.8.18 开放决赛数据集、评测入口
2022.8.20 关闭决赛数据集、评测入口

任务描述

本次赛题选择网络文本作为输入,从中检测并纠正错误,实现中文文本校对系统。即给定一段文本,校对系统从中检测出错误字词、错误类型,并进行纠正,最终输出校正后的结果。

文本校对又称文本纠错,相关资料可参考自然语言处理方向的语法纠错(Grammatical Error Correction, GEC)任务和中文拼写纠错(Chinese spelling check, CSC)

Baseline介绍

模型

提供了GECToR作为baseline模型,可参考GECToR论文GECToR源代码

代码结构

├── command
│   └── train.sh       # 训练脚本
├── data
├── logs
├── pretrained_model
└── src
    ├── __init__.py
    ├── baseline       # baseline系统
    ├── corrector.py   # 文本校对入口
    ├── evaluate.py    # 指标评估
    ├── metric.py      # 指标计算文件 
    ├── prepare_for_upload.py  # 生成要提交的结果文件
    └── train.py       # 训练入口

使用说明

  • 数据集获取:请于比赛网站获取数据集
  • 提供了基础校对系统的baseline,其中baseline模型训练参数说明参考src/baseline/trainer.py
  • baseline中的预训练模型支持使用bert类模型,可从HuggingFace下载bert类预训练模型,如: chinese-roberta-wwm-ext
  • baseline仅作参考,参赛队伍可对baseline进行二次开发,或采取其他解决方案。

开始训练

cd command && sh train.sh

其他公开数据集

相关资源

About

文本智能校对大赛(Chinese Text Correction)的baseline

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 99.4%
  • Shell 0.6%