文本相似度计算方法、装置和电子设备制造方法及图纸

技术编号：40632714 阅读：3 留言：0更新日期：2024-03-13 21:17

本发明专利技术实施例公开了一种文本相似度计算方法、装置和电子设备。获取第一文本和第二文本，对所述第一文本和第二文本进行分段处理以获取第一文本对应的第一分段和第二文本对应的第二分段，根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵，根据所述相似度矩阵获取第一对齐段落对，根据所述第一对齐段落对获取所述第一文本和所述第二文本的相似度。由此，可以更加全面、可靠地判断相似度，并进行细粒度的评估分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本相似度领域，尤其涉及一种文本相似度计算方法、装置和电子设备。

技术介绍

1、随着互联网和数字技术的快速发展，作品的复制和传播变得更加容易和便捷，这也导致了抄袭行为的增多。为了保护原创作品的知识产权，维护创作者的权益，需要对相似度进行准确的评测和认定。

2、目前常用的相似度评测方法是通过一些相似度算法，进行计算。这些方法通常针对完整的文本段落进行计算，属于一种粗粒度的评测方法，计算相似度的结果不够全面可靠，并缺少细粒度的评估分析。

技术实现思路

1、有鉴于此，本专利技术实施例提供一种文本相似度计算方法、装置和电子设备，可以更加全面、可靠地计算相似度，并提供细粒度的评估分析。

2、第一方面，本专利技术实施例提供了一种文本相似度计算方法，所述方法包括：

3、获取第一文本和第二文本；

4、对所述第一文本和第二文本进行分段处理以获取第一文本对应的第一分段和第二文本对应的第二分段；

5、根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵；

6、根据所述相似度矩阵获取第一对齐段落对；

7、根据所述第一对齐段落对获取所述第一文本和所述第二文本的相似度。

8、在一些实施例中，所述对所述第一文本和第二文本进行分段处理以获取第一文本对应的第一分段和第二文本对应的第二分段包括：

9、根据标点、字数、分词、韵律结果中的至少一种对第一文本和第二文本进行拆分，以获取第一文本对应的第

10、分别将所述第一语句和第二语句进行合并以获取第一文本对应的第一分段和第二文本对应的第二分段。

11、在一些实施例中，所述分别将所述第一语句和第二语句进行合并包括：

12、在所述第一语句或第二语句中获取目标语句；

13、获取所述目标语句与目标语句的上一语句的结合语句对应的第一困惑度；

14、获取所述目标语句与目标语句的下一语句的结合语句对应的第二困惑度；

15、根据所述第一困惑度和所述第二困惑度在所述上一语句和下一语句中选择一个与所述目标语句进行合并。

16、在一些实施例中，所述根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵具体为：

17、通过预定的计算方式确定各所述第一分段与第二分段的第一相似度，以得到相似度矩阵。

18、在一些实施例中，所述相似度矩阵为n*m的矩阵，n为第一分段的数量，m为第二分段的数量；

19、其中，所述根据所述相似度矩阵获取第一对齐段落对具体为以迭代方式执行以下步骤：

20、将所述相似度矩阵中的第i行的最大值元素对应的第二分段与第i个第一分段确定为一个第一对齐段落对；

21、删除所述最大值元素对应的行和列以对所述相似度矩阵进行调整。

22、在一些实施例中，所述根据所述第一对齐段落对获取所述第一文本和所述第二文本的相似度包括：

23、按照字数规则或句子数量对多个所述第一对齐段落对进行合并以获取第二对齐段落对，所述第二对齐段落对包括第三分段和第四分段，所述第三分段为对多个所述第一对齐段落对中的第一分段进行合并获取，所述第四分段为对多个所述第一对齐段落对中的第二分段进行合并获取；

24、通过双语评估替换相似度指标计算所述第二对齐段落对中第三分段和第四分段的第二相似度；

25、根据所述第二相似度和预定的参考指标确定所述第一文本和所述第二文本的相似度。

26、在一些实施例中，所述预定的参考指标包括置信度。

27、在一些实施例中，所述根据所述第二相似度和预定的参考指标确定所述第一文本和所述第二文本的相似度具体为：

28、计算置信度范围内的第二相似度值的均值或中值，作为所述第一文本和所述第二文本的相似度。

29、第二方面，本专利技术实施例提供了一种文本相似度计算装置，所述装置包括：

30、获取单元，用于获取第一文本和第二文本；

31、分段单元，用于对所述第一文本和第二文本进行分段处理以获取第一文本对应的第一分段和第二文本对应的第二分段；

32、相似度矩阵计算单元，用于根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵；

33、对齐单元，用于根据所述相似度矩阵获取第一对齐段落对；

34、文本相似度计算单元，用于根据所述第一对齐段落对获取所述第一文本和所述第二文本的相似度。

35、第三方面，本专利技术实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机程序指令，其中，所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。

36、本专利技术实施例的技术方案通过获取第一文本和第二文本，对所述第一文本和第二文本进行分段处理以获取第一文本对应的第一分段和第二文本对应的第二分段，根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵，根据所述相似度矩阵获取第一对齐段落对，根据所述第一对齐段落对获取所述第一文本和所述第二文本的相似度。由此，可以更加全面、可靠地判断相似度，并进行细粒度的评估分析。

本文档来自技高网...

【技术保护点】

1.一种文本相似度计算方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述第一文本和第二文本进行分段处理以获取第一文本对应的第一分段和第二文本对应的第二分段包括：

3.根据权利要求2所述的方法，其特征在于，所述分别将所述第一语句和第二语句进行合并包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵具体为：

5.根据权利要求1所述的方法，其特征在于，所述相似度矩阵为N*M的矩阵，N为第一分段的数量，M为第二分段的数量；

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一对齐段落对获取所述第一文本和所述第二文本的相似度包括：

7.根据权利要求6所述的方法，其特征在于，所述预定的参考指标包括置信度。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第二相似度和预定的参考指标确定所述第一文本和所述第二文本的相似度具体为：

9.一种文本相似度计算装置，其特征在于，所述装置包括：

...

【技术特征摘要】

1.一种文本相似度计算方法，其特征在于，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述分别将所述第一语句和第二语句进行合并包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一分段和所述第二分段的第一相似度确定相似度矩阵具体为：

5.根据权利要求1所述的方法，其特征在于，所述相似度矩阵为n*m的矩阵，n为第一分段的数量，m为第二分段的数量；

6.根据权利要求1...

【专利技术属性】
技术研发人员：李林钦，冯小琴，李维，丁辉，吴玉虎，
申请(专利权)人：上海墨百意信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人