一种文本相似度计算方法、装置及电子设备制造方法及图纸

技术编号:20221903 阅读:27 留言:0更新日期:2019-01-28 20:21
本发明专利技术实施例公开了一种文本相似度计算方法、装置及电子设备。本发明专利技术实施例方法包括:获取原始文本和目标文本;计算所述原始文本和所述目标文本的编辑距离;确定所述原始文本和所述目标文本的最长公共子串,并求得所述最长公共子串在所述原始文本中的起始位置;基于所述最长公共子串在所述原始文本中的起始位置,计算所述原始文本和所述目标文本的文本相似度。本发明专利技术实施例中结合原始文本和目标文本的编辑距离和最长公共子串计算文本相似度,计算的文本相似度更加贴近实际,提高了文本相似度计算的准确度。

【技术实现步骤摘要】
一种文本相似度计算方法、装置及电子设备
本专利技术涉及视频播放
,特别涉及一种文本相似度计算方法、装置及电子设备。
技术介绍
相似度计算用于衡量对象之间的相似程度。在自然语言处理
,相似度计算一个基础性运算,被广泛应用于数据挖掘、数据分类、信息检索和信息采集等技术场景中。文本相似度计算是自然语言处理
中常涉及到的相似度计算类型,通过计算不同文本之间的相似度能够实现对大规模的文本语料进行聚类分析、文本匹配或去重处理等。现有技术中的文本相似度计算方法主要包括余弦相似度、编辑距离和基于神经网络语言模型的相似度计算方法。其中,余弦相似度方法对文本进行分词,并根据分词结果构造文本的特征向量,将特征向量之间的余弦相似度作为文本相似度;编辑距离是指两个文本之间,由一个转成另一个所需的最少编辑操作次数,许可的编辑操作包括将文本中的一个字符替换成另一个字符,插入一个字符或删除一个字符,最少编辑操作次数越少,则文本相似度越高;而神经网络语言模型的贡献是解决了传统的通过特征词向量计算文本相似度时出现的维度灾难问题。与一些外文语言不同,在中文语言中,语法和语义的表达较多地依赖语序而实现。因本文档来自技高网...

【技术保护点】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取原始文本和目标文本;计算所述原始文本和所述目标文本的编辑距离;确定所述原始文本和所述目标文本的最长公共子串,并求得所述最长公共子串在所述原始文本中的起始位置;基于所述最长公共子串在所述原始文本中的起始位置,计算所述原始文本和所述目标文本的文本相似度。

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,所述方法包括:获取原始文本和目标文本;计算所述原始文本和所述目标文本的编辑距离;确定所述原始文本和所述目标文本的最长公共子串,并求得所述最长公共子串在所述原始文本中的起始位置;基于所述最长公共子串在所述原始文本中的起始位置,计算所述原始文本和所述目标文本的文本相似度。2.根据权利要求1所述的方法,其特征在于,所述获取原始文本和目标文本的步骤,包括:获取目标领域的目标语料;对所述目标语料进行分词和词性标注,并去除停用词,得到待计算文本;在所述待计算文本中选择原始文本和目标文本。3.根据权利要求1所述的方法,其特征在于,所述确定所述原始文本和所述目标文本的最长公共子串,并求得所述最长公共子串在所述原始文本中的起始位置的步骤,包括:计算所述原始文本和所述目标文本中各公共子串的长度;根据所述各公共子串的长度确定所述原始文本和所述目标文本的最长公共子串;求得所述最长公共子串在所述原始文本中的起始位置。4.根据权利要求3所述的方法,其特征在于,所述基于所述最长公共子串在所述原始文本中的起始位置,计算所述原始文本和所述目标文本的文本相似度的步骤包括:获取公共子串影响因素的第一权重及所述编辑距离的第二权重;基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重,计算所述原始文本和所述目标文本的文本相似度。5.根据权利要求4所述的方法,其特征在于,所述基于所述最长公共子串在所述原始文本中的起始位置、所述最长公共子串的长度、所述编辑距离、所述第一权重和所述第二权重,计算所述原始文本和所述目标文本的文本相似度的步骤采用如下公...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1