文本相似度的计算-白红宇

文本相似度的计算

阅读量：6986 次

发布时间：2019-06-27

本文共 308 字，大约阅读时间需要 1 分钟。

文本相似度的计算方法有很多，这里简单记录一下

传统的VSM模型：

计算文本相似度的时候主要是使用tfidf来协助生成文档向量整个文档集合有多少词，就是多少维度每个文档中的词用tfidf来生成权重，用权重来表示文档的向量生成向量后，就可以计算相似度了，用夹角余弦当然这里词的权重的生成方式还有很多，也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单，主要是先生成文档 - 词矩阵矩阵中的内容就是文档中出现该词的频数然后用svd分解矩阵得到三个矩阵C = USV然后每个文档向量分别和USV相乘得到向量文本相似度计算还是夹角余弦至于降低维度，就要对S进行奇异值削减了

转载地址：http://ogjpl.baihongyu.com/

你可能感兴趣的文章

《PHP和MySQL Web 开发》第10章使用Web数据库

使用tomcat 7的 maven插件启动项目

查看>>

spring task执行两次解决办法(修改tomcat配置)

查看>>

android 4.4（KitKat)上，如何开发SMS功能的APP

查看>>

转】Javascript 中的false,零值,null,undefined和空字符串对象

Tomcat reloadable属性让你修改Java代码不必自动重启服务器

你真的会用Gson吗?Gson使用指南（一）

查看>>

tomcat单机多实例配置实战

查看>>

onSaveInstanceState用法

查看>>