Skip to content
/ guqin Public

本项目旨在通过一系列实验,探索如何通过数据集构建和训练古琴减字谱多模态大模型,实现古琴减字谱的识谱和释谱应用场景。

Notifications You must be signed in to change notification settings

xtykc/guqin

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

59 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

古琴减字谱多模态大模型

本项目旨在通过一系列实验,探索如何通过数据集构建和训练古琴减字谱多模态大模型,实现古琴减字谱的识谱和释谱应用场景。 实验主要分为4个阶段:

阶段一:数据集构建

包括多模态资源采集和结构化数据清洗加工、古琴减字谱知识图谱构建(含古琴减字谱本体模型及词表设计)、多模态大模型训练数据集构建。

在减字谱图像采集的过程中,采用了众包的方式,有数千人次参与了众包抄录工作,感谢他们为极具中国文化特色的古琴减字谱这种典型的文化记忆资源在GenAI时代的传承和传播,贡献了宝贵的“人原生”数据。 众包致谢名单

阶段二:多模态大模型少样本微调

包括基座模型微调和对话模型微调,前者用于识谱,后者用于释谱。

微调效果最好的模型权重文件位于chechpoints目录下,相应的微调数据在data目录下。

阶段三:多模态大模型大样本微调和继续预训练

阶段四:基于知识图谱的检索增强生成(KG-RAG)

实验结论

古琴减字谱作为一种极其典型的多模态文化记忆资源,在数智化开发利用程度较低的情况下,现有的大模型难以具备相关的专业领域知识。而在类似古琴减字谱这样的深度垂直领域中,提示词工程、基线检索增强(Baseline RAG)等技术路线无法为现有的生成式预训练大模型注入专业领域知识。经过微调的多模态大模型(基座模型)的多模态向量嵌入生成和跨模态对齐的能力,以及向量数据库的向量存储、相似性计算和跨模态检索能力,为古琴减字谱的识谱应用场景提供了全新而有效的解决方案。经过LoRA微调和全参数微调的多模态大语言模型(对话模型)的自然语言交互能力为古琴减字谱的释谱应用提供了基本的解决方案,但准确性、可信性和可靠性不足,而基于古琴减字谱知识图谱的检索增强生成(KG-RAG)方案有效地改善了这种不足。

基于GenAI技术的向量化知识表示方法可以很好地解决多模态文化记忆资源的相似性计算和跨模态检索这样的判别式问题,但在自然语言交互这种生成式问题的解决上,还要结合语义化的方法,充分利用已有的知识表示方法和成果,以改善决大模型的幻觉问题,提升其可靠性、专业性和可解释性。

引用

[1]夏翠娟.GenAI技术环境下多模态文化记忆资源的知识表示研究:以古琴减字谱为例[J/OL].中国图书馆学报,1-30[2025-12-07].https://link.cnki.net/urlid/11.2746.G2.20251204.1826.002.

特别致谢

张梦石、刘阳、宋杰。没有你们,我无法完成这项重要的阶段性研究工作。

About

本项目旨在通过一系列实验,探索如何通过数据集构建和训练古琴减字谱多模态大模型,实现古琴减字谱的识谱和释谱应用场景。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published