文本相似度获取方法和装置制造方法及图纸

技术编号:8744535 阅读:220 留言:0更新日期:2013-05-29 22:02
本发明专利技术公开一种文本相似度获取方法和装置,能够准确快速地计算出文本的相似度,操作简单,数据计算量较小。本发明专利技术实施例提供的文本相似度获取方法包括:根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;计算文本中每一可用词的哈希值;根据文本中所有可用词的哈希值得到所述文本的相似哈希值;利用文本的相似哈希值获取不同文本之间的相似度。

【技术实现步骤摘要】

【技术保护点】
一种文本相似度获取方法,其特征在于,所述方法包括:根据预定的停用词规则剔除各文本中的停用词,提取出所述文本的可用词;计算文本中每一可用词的哈希值;根据文本中所有可用词的哈希值得到所述文本的相似哈希值;利用文本的相似哈希值获取不同文本之间的相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:张雁飞
申请(专利权)人:北京新媒传信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1