博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
文本相似度的计算
阅读量:6986 次
发布时间:2019-06-27

本文共 308 字,大约阅读时间需要 1 分钟。

文本相似度的计算方法有很多,这里简单记录一下

传统的VSM模型:

计算文本相似度的时候主要是使用tfidf来协助生成文档向量整个文档集合有多少词,就是多少维度每个文档中的词用tfidf来生成权重,用权重来表示文档的向量生成向量后,就可以计算相似度了,用夹角余弦当然这里词的权重的生成方式还有很多,也可以用其他的

LSI(Latent semantic indexing) 的方式

这个的方式也比较简单,主要是先生成文档 - 词矩阵矩阵中的内容就是文档中出现该词的频数然后用svd分解矩阵得到三个矩阵C = USV然后每个文档向量分别和USV相乘得到向量文本相似度计算还是夹角余弦至于降低维度,就要对S进行奇异值削减了

转载地址:http://ogjpl.baihongyu.com/

你可能感兴趣的文章
《PHP和MySQL Web 开发》 第10章 使用Web数据库
查看>>
Sonar学习的记录
查看>>
快速生成CSS--LESS学习总结
查看>>
ubuntu安装Jetty
查看>>
jqgrid合并单元格
查看>>
纯C实现jsonrpc
查看>>
使用tomcat 7的 maven插件启动项目
查看>>
spring task执行两次解决办法(修改tomcat配置)
查看>>
android 4.4(KitKat)上,如何开发SMS功能的APP
查看>>
转】Javascript 中的false,零值,null,undefined和空字符串对象
查看>>
Nodejs使用fs判断文件是否存在
查看>>
spring中bean配置和bean注入
查看>>
关于proguard,你需要知道的全部
查看>>
百度 Ueditor 编辑器学习笔记
查看>>
Tomcat reloadable属性 让你修改Java代码不必自动重启服务器
查看>>
PHPUnit 单元测试入门笔记
查看>>
Oracle - install
查看>>
你真的会用Gson吗?Gson使用指南(一)
查看>>
tomcat单机多实例配置实战
查看>>
onSaveInstanceState用法
查看>>