【技术实现步骤摘要】
一种相似文本的生成方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能领域,尤其涉及一种相似文本的生成方法、装置、设备及存储介质。
技术介绍
[0002]自然语言生成(natural language generation,NLG)是自然语言处理的一部分,从知识库或利用语言学中的逻辑形式去生成自然语言。NLG出现已久,但是商业NLG技术直到最近才变得普及。NLG方法的常见应用包括生成各种报告,例如天气预报,患者报告,字幕生成,对话机器人等。
[0003]60年代中期,NLG就已经存在,但NLG在90年代才首次商业化使用,说明这个
的发展可以说还处于初期,在各种业务上的商业应用并不是非常成熟,这主要是人类语言的复杂性造成的。大多数NLG的落地应用都是由模板匹配和一些nlp子任务组成,要生成标准的人类自然语言,并且能够生成正确处理自然语言的含有歧义以及多样性的表达,基于模板的生成系统往往不够,所以在深度学习技术快速发展的时期,结合深度学习的NLG方法也成为了主流。为了增强模型应对自然语言多样性和歧义性的能力,自然的会考虑使用预训练语言模型,利用大量语料中丰富的语义和语法结构信息,可以使得模型的生成能力大大超过基于统计的机器学习模型。
[0004]在常见相似文本生成系统如问题问答系统中,随着数据的累计和业务的变化,需要适时更新知识库,而知识库的维护需要一定的人工参与,然而这种方式耗时费力,效率较低,生成的相似文本不够准确且具有一定的局限性。因此,如何更有效地提高相似文本的生成效率、准确性和多 ...
【技术保护点】
【技术特征摘要】
1.一种相似文本的生成方法,其特征在于,包括:获取训练数据集,所述训练数据集中包括正样本和负样本,所述正样本包括多个第一训练句子,每个第一训练句子由多个相似句子中两两相似句子进行拼接得到,所述负样本包括多个第二训练句子,每个第二训练句子由多个非相似句子中两两非相似句子进行拼接得到;根据所述训练数据集中的正样本和负样本生成一个相似矩阵,所述相似矩阵包括正样本标签和负样本标签,所述正样本标签用于指示所述正样本中的第一训练句子,所述负样本标签用于指示所述负样本中的第二训练句子;将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示;根据所述第一向量表示和所述第二向量表示确定损失函数值,并根据所述损失函数值训练所述预设的Bert模型,得到相似句向量模型;获取待测试文本,所述待测试文本包括一个句子,并将所述待测试文本输入所述相似句向量生成模型,得到所述待测试文本的相似句向量,并确定与所述相似句向量对应的相似句子。2.根据权利要求1所述的方法,其特征在于,所述将所述相似矩阵中的各个第一训练句子输入预设的Bert模型,得到各个第一训练句子对应的第一向量表示,以及将所述相似矩阵中的各个第二训练句子输入所述预设的Bert模型,得到各个第二训练句子对应的第二向量表示,包括:获取所述各个第一训练句子的第一文本长度,并根据所述各个第一训练句子的第一文本长度确定第一自注意力矩阵;将所述第一自注意力矩阵和所述各个第一训练句子输入所述预设的Bert模型,得到所述各个第一训练句子的第一向量表示;获取所述各个第二训练句子的第二文本长度,并根据所述各个第二训练句子的第二文本长度确定第二自注意力矩阵;将所述第二自注意力矩阵和所述各个第二训练句子输入所述预设的Bert模型,得到所述各个第二训练句子的第二向量表示。3.根据权利要求1所述的方法,其特征在于,所述根据所述第一向量表示和所述第二向量表示确定损失函数值,包括:将所述第一向量表示中的各个向量和所述第二向量表示中的各个向量两两相乘得到一个目标相似矩阵;获取所述各个向量对应的标签,并根据所述各个向量以及所述各向量对应的标签确定标签矩阵;根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标相似矩阵和所述标签矩阵计算得到所述损失函数值,包括:将所述目标相似矩阵减去所述标签矩阵计算得到目标矩阵;根据所述目标矩阵中的各个向量,计算所述目标矩阵中的各个向量的均值,并确定所
述均值为所述损失函数值。5.根据权利要求1所述的方法,其特征在于,所述将所述待测试文本输入所述相似文句向量模型,得到所述待测试文本的相似句向量,包括:在所述待测试文本的指定位置添加分割符标识;将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示。6.根据权利要求5所述的方法,其特征在于,所述将添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所处位置之后的相似句向量表示,包括:将所述添加分割符标识后的待测试文本输入所述相似句向量模型中,得到所述待测试文本对应的第一目标向量表示以及所述分割符标识所...
【专利技术属性】
技术研发人员:杨焱麒,
申请(专利权)人:平安银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。