Stars
EMNLP 2022: ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization
用于从头预训练+SFT一个小参数量的中文LLaMa2的仓库;24G单卡即可运行得到一个具备简单中文问答能力的chat-llama2.
The most comprehensive database of Chinese poetry 🧶最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
中文分词 词性标注 命名实体识别 依存句法分析 成分句法分析 语义依存分析 语义角色标注 指代消解 风格转换 语义相似度 新词发现 关键词短语提取 自动摘要 文本分类聚类 拼音简繁转换 自然语言处理
A java classifier based on the naive Bayes approach complete with Maven support and a runnable example.
coder3344 / CRFJava
Forked from DutZMZ/CRFJavaTo be the most simple CRF Java tool kit.