一种结合语义识别实现标识文本差异内容的方法及系统技术方案

技术编号：29102706 阅读：20 留言：0更新日期：2021-06-30 10:16

本申请公开了一种结合语义识别实现标识文本差异内容的方法，包括：S100：通过深度学习方法预训练所述相似度计算模型；S200：计算待对比文本的第一相似度；S300：逐个随机剔除待对比文本中的分词；S400：计算剔除分词之后的待对比文的第二相似度；S500：当第二相似度小于预设相似度阈值且大于第一相似度时，重复步骤S300；S600：当第二相似度小于第一相似度时，放回被剔除的分词后，重复步骤S300；S700：当第二相似度大于或等于预设相似度阈值时，标识待对比文本中被剔除的分词。本申请可以在保留语义的前提下，提取出两句文本中不同的内容，并对不同的内容进行高亮展示，准确高效的提取到使用者关注的核心要素，从而提升使用者的工作效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合语义识别实现标识文本差异内容的方法及系统

[0001]本申请涉及本申请涉及自然语言处理的相关技术，特别是涉及一种结合语义识别实现标识文本差异内容的方法。

技术介绍

[0002]随着大数据时代的到来，我们的生活和工作被大量数据包围，如何从纷杂的数据中提取对自己有用的信息，变得越来越重要。主流文本差异的高亮比对技术基于文本中的字符串比较进行高亮，该方法的不足之处在于：若两句文本中同个意思使用的词不同或同个意思但语序不同，会导致无法准确识别其中差异内容，导致高亮了多余的内容，失去了高亮应有的价值，增加了阅读者的阅读成本。

技术实现思路

[0003]本申请的主要目的在于提供一种结合语义识别实现标识文本差异内容的方法，包括：S100：通过深度学习方法预训练所述相似度计算模型；S200：通过相似度计算模型计算待对比文本的第一相似度；S300：当所述第一相似度小于预设相似度阈值时，逐个随机剔除所述待对比文本中的分词；S400：通过相似度计算模型计算剔除所述分词之后的所述待对比文的第二相似度；S500：当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时，重复步骤S300；S600：当所述第二相似度小于所述第一相似度时，放回被剔除的所述分词后，重复步骤S300；S700：当所述第二相似度大于或等于所述预设相似度阈值时，标识所述待对比文本中被剔除的分词。
[0004]可选地，结合语义识别实现标识文本差异内容的方法还包括：设定所述相似度阈值。
[0005]可选地，结合语义识别实现标识文本差...

【技术保护点】

【技术特征摘要】
1.一种结合语义识别实现标识文本差异内容的方法，其特征在于，包括：S100：通过深度学习方法预训练所述相似度计算模型；S200：通过相似度计算模型计算待对比文本的第一相似度；S300：当所述第一相似度小于预设相似度阈值时，逐个随机剔除所述待对比文本中的分词；S400：通过相似度计算模型计算剔除所述分词之后的所述待对比文的第二相似度；S500：当所述第二相似度小于所述预设相似度阈值且大于所述第一相似度时，重复步骤S300；S600：当所述第二相似度小于所述第一相似度时，放回被剔除的所述分词后，重复步骤S300；S700：当所述第二相似度大于或等于所述预设相似度阈值时，标识所述待对比文本中被剔除的分词。2.根据权利要求1所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：设定所述相似度阈值。3.根据权利要求2所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：当所述第一相似度大于或等于所述相似度阈值时，无需标识。4.根据权利要求3所述的结合语义识别实现标识文本差异内容的方法，其特征在于，还包括：对比所述第一相似度与所述相似度阈值...

【专利技术属性】
技术研发人员：张利江，滕菁，孙长磊，蒋涛，
申请(专利权)人：杭州有数金融信息服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人