一种相似文本的生成方法、装置、设备及存储介质制造方法及图纸

技术编号:31088325 阅读:9 留言:0更新日期:2021-12-01 12:46
本发明专利技术实施例涉及人工智能领域,公开了一种相似文本的生成方法、装置、设备及存储介质,该方法包括:获取训练数据集,包括正样本和负样本,正样本中每个第一训练句子由两两相似句子拼接得到,负样本中每个第二训练句子由两两非相似句子拼接得到;将第一训练句子输入Bert模型得到第一向量表示,将第二训练句子输入Bert模型得到第二向量表示;根据第一向量表示和第二向量表示确定损失函数值,根据损失函数值训练Bert模型得到相似句向量模型;将待测试文本输入相似句向量模型得到相似句向量,确定相似句向量的相似句子,以提高生成相似文本的效率和准确性。本发明专利技术涉及区块链技术,如可将数据写入区块链中,以用于数据取证等场景。以用于数据取证等场景。以用于数据取证等场景。

【技术实现步骤摘要】
一种相似文本的生成方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种相似文本的生成方法、装置、设备及存储介质。

技术介绍

[0002]自然语言生成(natural language generation,NLG)是自然语言处理的一部分,从知识库或利用语言学中的逻辑形式去生成自然语言。NLG出现已久,但是商业NLG技术直到最近才变得普及。NLG方法的常见应用包括生成各种报告,例如天气预报,患者报告,字幕生成,对话机器人等。
[0003]60年代中期,NLG就已经存在,但NLG在90年代才首次商业化使用,说明这个
的发展可以说还处于初期,在各种业务上的商业应用并不是非常成熟,这主要是人类语言的复杂性造成的。大多数NLG的落地应用都是由模板匹配和一些nlp子任务组成,要生成标准的人类自然语言,并且能够生成正确处理自然语言的含有歧义以及多样性的表达,基于模板的生成系统往往不够,所以在深度学习技术快速发展的时期,结合深度学习的NLG方法也成为了主流。为了增强模型应对自然语言多样性和歧义性的能力,自然的会考虑使用预训练语言模型,利用大量语料中丰富的语义和语法结构信息,可以使得模型的生成能力大大超过基于统计的机器学习模型。
[0004]在常见相似文本生成系统如问题问答系统中,随着数据的累计和业务的变化,需要适时更新知识库,而知识库的维护需要一定的人工参与,然而这种方式耗时费力,效率较低,生成的相似文本不够准确且具有一定的局限性。因此,如何更有效地提高相似文本的生成效率、准确性和多样性非常重要。

技术实现思路

[0005]本专利技术实施例提供了一种相似文本的生成方法、装置、设备及介质,可以提高确定相似文本的效率和准确性。
[0006]第一方面,本专利技术实施例提供了一种相似文本的生成方法,包括:
[0007]获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;
[0008]根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;
[0009]将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;
[0010]根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;
[0011]获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。
[0012]进一步地,所述将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示,包括:
[0013]获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;
[0014]将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;
[0015]获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;
[0016]将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。
[0017]进一步地,所述根据所述第一向量表示和所述第二向量表示确定损失函数值,包括:
[0018]将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;
[0019]获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;
[0020]根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。
[0021]进一步地,所述根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值,包括:
[0022]将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;
[0023]根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所述均值为所述损失函数值。
[0024]进一步地,所述将所述待测试文本输入所述相似文句向量模型,得到所述待测试文本的相似句向量,包括:
[0025]在所述待测试文本的指定位置添加分割符标识;
[0026]将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。
[0027]进一步地,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:
[0028]将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的k个相似向量表示,k为正整数;
[0029]确定所述分割符标识所处位置之后的k个相似向量表示为所述相似句向量表示;
[0030]所述确定与所述相似句向量对应的相似句子,包括:
[0031]根据预设的向量表示与索引的对应关系确定与所述k个相似向量表示中每个相似向量表示的索引,并从预设的数据库中确定与所述每个相似向量表示的索引对应的第一文本,所述第一文本包括字、词、句子中的一种或多种;
[0032]根据所述每个相似向量表示的索引对应的第一文本确定与所述待测试文本对应的相似句子。
[0033]进一步地,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:
[0034]将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的第一相似向量表示;
[0035]根据预设的向量表示与索引的对应关系确定与所述第一相似向量表示对应的第一索引,并从预设的数据库中确定与所述第一索引对应的第二文本,所述第二文本包括字、词、句子中的一种或多种;
[0036]将所述添加分割符标识后的待测试文本以及与所述第一索引对应的第二文本输入所述相似句向量模型中,得到所述待测试文本和所述第二文本对应的第二目标向量表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种相似文本的生成方法,其特征在于,包括:获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。2.根据权利要求1所述的方法,其特征在于,所述将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示,包括:获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一向量表示和所述第二向量表示确定损失函数值,包括:将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值,包括:将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所
述均值为所述损失函数值。5.根据权利要求1所述的方法,其特征在于,所述将所述待测试文本输入所述相似文句向量模型,得到所述待测试文本的相似句向量,包括:在所述待测试文本的指定位置添加分割符标识;将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。6.根据权利要求5所述的方法,其特征在于,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所...

【专利技术属性】
技术研发人员:杨焱麒
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1