Skip to content

nigestream/cosSim

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

cosSim

基于TF-IDF和余弦定理计算文本相似度

使用

python3 main.py

计算过程

  1. 对输入的两个文本分词,使用CountVectorizer计算词频矩阵
  2. 计算TF-IDF得到weight矩阵(归一化)
  3. 根据余弦定理计算两个向量的相似度

结果越接近1.0表示文本越相似(不考虑文本的词的顺序)

About

基于TF-IDF和余弦定理计算文本相似度

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages