这是实现新闻人物言论提取的模型

各部分说明

安装

安装依赖保存在 requirements.txt 文件中

python -m venv venv

model 文件保存的是pyltp模型
similar_word文件保存的是提取相近词算法以及近义词表，这里保存的是‘说’的近义词。
word2vec_model 文件保存的是word2vec模型，以及实现算法。
clean_word 是实现数据清洗、分词的pipeline。
extract_algorithm.py 保存了人物及言论提取的主要算法。

接口说明

接口为extract_algorithm内的present_data 函数
输入： string ---> 类型：string, 即一段文本
输出： res---> 类型：dictionary，包含人物及其观点

人物及言论提取的主要思路及改进方向

思路

将文本按句切分
判断每一句是否存在命名实体。
若是：判断是否存在主谓结构，且包含‘说’的近义词。都满足，则提取该句信息，结束符号为：句号。
若不是：判断下一句。

改进方向

结束符号为句号，太草率，可以加入TFIDF比较文本相似性，取余弦。设定一个阈值，判断语句之间相似程度。
若相似，则加入言论。
这里仅仅对主谓结构进行了判断，实际上还有其他结构，同样存在人物的观点，需要进一步甄别判断。
还可以将人物及其言论画成图，进行展示。并且根据图的连接来寻找人物之间的关系。
此外，提取近义词的算法（这里采用的是DFS搜索），可以优化的方向：加入Dynamic Programming 以及节点值的选取。
词向量的转换，可以考虑BERT。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

这是实现新闻人物言论提取的模型

各部分说明

安装

接口说明

人物及言论提取的主要思路及改进方向

思路

改进方向

About

Uh oh!

Releases

Packages

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
model		model
similar_word		similar_word
word2vec_model		word2vec_model
README.md		README.md
clean_word.py		clean_word.py
extract_algorithm.py		extract_algorithm.py
requirements.txt		requirements.txt

Mikasathebest/extract_comment

Folders and files

Latest commit

History

Repository files navigation

这是实现新闻人物言论提取的模型

各部分说明

安装

接口说明

人物及言论提取的主要思路 及 改进方向

思路

改进方向

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

人物及言论提取的主要思路及改进方向

Packages