一种目标文本确定方法、装置及设备制造方法及图纸

技术编号：24854732 阅读：24 留言：0更新日期：2020-07-10 19:08

本说明书实施例提供一种目标文本确定方法、装置及设备。方案包括获取待分析文本；针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算待分析文本与任意一个基础文本的相似度，得到n个相似度，n≥2；采用文本相似度确定模型，基于n个相似度计算待分析文本与每个基础文本的综合相似度，得到综合相似度集合；将综合相似度集合中最大相似度对应的基础文本确定为目标文本。

全部详细技术资料下载

【技术实现步骤摘要】
一种目标文本确定方法、装置及设备
本说明书一个或多个实施例涉及计算机
，尤其涉及一种目标文本确定方法、装置及设备。
技术介绍
合同是当事人或当事双方之间设立、变更、终止民事关系的协议。依法成立的合同，受法律保护。合同又称为契约、协议，是平等的当事人之间设立、变更、终止民事权利义务关系的协议。在智能法务应用中，构建法务合同的条款库。条款库中包括一些基础条款，在智能问答机器人中的找合同场景，用户输入合同名字，机器可以从条款库中找到用户想要的合同条款。此时，需要采用文本相似度的计算方法，计算用户输入的文本和现有合同条款库中的合同名的相似度，根据相似度查找目标合同条款返回给用户。因此，文本相似度算法的好坏决定了查找目标合同的准确率。因此，需要提供一种更可靠的目标文本确定方案。
技术实现思路
有鉴于此，本说明书一个或多个实施例提供了一种目标文本确定方法、装置及设备，用于提高文本相似度的计算精度，进而提高目标文本的查找准确率。为解决上述技术问题，本说明书实施例是这样实现的：本说明书实施例提供的一种文本相似度确定模型的生成方法，包括：获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似；针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2；采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所...

【技术保护点】
1.一种文本相似度确定模型的生成方法，包括：/n获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似；/n针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2；/n采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个所述样本数据对的综合相似度；/n根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值；/n根据所述更新后的权重值生成文本相似度确定模型。/n

【技术特征摘要】
1.一种文本相似度确定模型的生成方法，包括：
获取包含多个样本数据对的样本数据集合，所述样本数据对中包括两个文本数据以及一个样本标签，所述样本标签表示所述两个文本数据是否相似；
针对每个样本数据对，采用n种文本相似度算法计算所述样本数据对的相似度，得到n个相似度，n≥2；
采用预设权重值对所述n个相似度进行加权求和，计算每个样本数据对的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个所述样本数据对的综合相似度；
根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值；
根据所述更新后的权重值生成文本相似度确定模型。

2.如权利要求1所述的方法，所述n种文本相似度算法包括向量余弦相似度算法、编辑距离算法、最长公共子串算法、基于词交集占比的算法、模糊距离算法和simhash相似度算法中的至少两种。

3.如权利要求2所述的方法，所述采用n种文本相似度算法计算所述样本数据对的相似度，具体包括：
采用向量余弦相似度算法计算所述样本数据对的第一相似度；
采用编辑距离算法计算所述样本数据对的第二相似度；
采用最长公共子串算法计算所述样本数据对的第三相似度；
采用基于词交集占比的算法确定所述样本数据对的第四相似度。

4.如权利要求3所述的方法，所述采用向量余弦相似度算法计算所述样本数据对的第一相似度，具体包括：
采用词向量模型将所述样本数据对映射为第一词向量和第二词向量；
计算所述第一词向量与第二词向量之间的余弦距离，得到第一相似度。

5.如权利要求3所述的方法，所述基于编辑距离算法计算所述样本数据对的第二相似度，具体包括：
将所述样本数据对转换为字符串，得到第一字符串和第二字符串；
确定第一字符串转换为所述第二字符串所执行的操作的操作次数，所述操作包括字符的替换、字符的删除和/或字符的增加；
根据所述操作次数确定所述第二相似度，所述操作次数与所述第二相似度成反比。

6.如权利要求3所述的方法，所述基于最长公共子串算法计算所述样本数据对的第三相似度，具体包括：
确定所述样本数据对中的最长公共子串；
从所述样本数据对中的两个样本数据中确定字符长度短的样本数据的字符长度；
将所述最长公共子串对应的字符长度与所述样本数据对中字符长度短的样本数据对应的字符长度的比值作为第三相似度。

7.如权利要求3所述的方法，所述基于词交集占比方法确定所述样本数据对的第四相似度，具体包括：
对所述样本数据对进行分词，确定所述样本数据对中相同词的数量；
确定所述样本数据对中字符长度短的样本数据对应的分词数量；
计算所述相同词的数量与所述分词数量的比值，得到所述样本数据对的第四相似度。

8.如权利要求1所述的方法，所述根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值，具体包括：
基于梯度下降算法根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值。

9.如权利要求8所述的方法，所述基于梯度下降算法根据所述样本标签以及所述综合相似度集合，对所述预设权重值进行更新，得到更新后的权重值，具体包括：
根据所述样本标签以及所述综合相似度集合计算每个样本数据对的代价函数；
根据所述代价函数沿着负梯度方向对预设权重值进行迭代更新，直至所述代价函数收敛至函数最小值为止，得到更新后的权重值。

10.如权利要求1所述的方法，所述采用预设权重值对所述n个相似度进行加权求和之前，还包括：
随机初始化n种文本相似度算法对应的权重值，得到预设权重，其中，n种文本相似度算法对应的权重值之和为1。

11.一种目标文本确定方法，包括：
获取待分析文本；
针对文本库中包含的任意一个基础文本，采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度，得到n个相似度，n≥2；
采用文本相似度确定模型，基于所述n个相似度计算所述待分析文本与每个基础文本的综合相似度，得到综合相似度集合；所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度；所述文本相似度确定模型是采用权利要求1所述的方法...

【专利技术属性】
技术研发人员：胡伟，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人