【技术实现步骤摘要】
文本生成方法、装置、电子设备及存储介质
[0001]本申请涉及人工智能
,特别涉及一种文本生成方法、装置、电子设备及存储介质。
技术介绍
[0002]自然语言生成(Natural Language Generation,NLG)是指利用人工智能和语言学等方法来自动地生成可理解的自然语言文本。随着技术的发展,自然语言生成技术广泛的应用在各个场景下,比如翻译、自动标题、商户文案生成等。传统自然语言生成技术一般是基于模板的方式进行生成,比如根据输入文本选择对应的生成模板,基于生成模板来生成与输入文本对应的反馈文本。随着大规模预训练模型的发展,基于预训练模型的生成方式也逐渐成为自然语言生成技术的主流。
[0003]常规的,在利用预训练模型生成反馈文本时,将输入文本输入至预训练模型中进行识别分析,以生成与该输入文本相匹配的反馈文本。这种方式存在知识固化的问题,降低了文本的流畅性,并且,在文本的识别过程中,还会存在知识丢失或知识干扰等问题,降低了对文本的识别准确性,从而也降低了反馈文本与输入文本的匹配性,导致生成的反馈文本不是很准确。因此,在自然语言生成领域中,如何有效准确地为输入文本生成反馈文本成为当前研究的热点问题之一。
技术实现思路
[0004]本申请提供一种文本生成方法、装置、电子设备及存储介质,以便于准确的为输入文本生成反馈文本。
[0005]第一方面,本申请提供了一种文本生成方法,所述文本生成方法包括:获取输入文本中的实体,并在知识图谱中提取所述实体对应的序列化信息,所述序列化信 ...
【技术保护点】
【技术特征摘要】
1.一种文本生成方法,其特征在于,包括:获取输入文本中的实体,并在知识图谱中提取所述实体对应的序列化信息,所述序列化信息用于表征所述实体的属性信息;将所述序列化信息与所述输入文本进行融合,获得融合数据;基于所述融合数据确定与所述输入文本相匹配的反馈文本。2.根据权利要求1所述的方法,其特征在于,所述将所述序列化信息与所述输入文本进行融合,获得融合数据,包括:将所述实体对应的所述序列化信息插入所述输入文本中的预设位置,获得融合文本;所述预设位置包括:所述实体的尾部,和/或,所述实体对应的需求信息的尾部;所述需求信息为表征所述实体需处理的业务信息;基于所述融合文本确定注意力掩码信息,所述注意力掩码信息用于区别所述输入文本和所述序列化信息;基于所述注意力掩码信息和所述融合文本,生成所述融合数据。3.根据权利要求2所述的方法,其特征在于,所述基于所述融合数据确定与所述输入文本相匹配的反馈文本,包括:将所述融合数据输入文本识别网络模型的文本编码层,获得编码特征序列向量,所述文本编码层是基于双注意力机制进行编码的网络层;遍历初始解码序列表,分别将所述编码特征序列向量和所述初始解码序列表中的每个初始编码序列输入所述文本识别网络模型的文本解码层进行处理,获得候选解码序列表;所述初始解码列表中包括多个初始编码序列以及每个初始编码序列对应的分值,所述候选解码序列表中包括多个候选解码序列以及每个候选解码序列对应的分值;遍历所述候选解码序列表,将具有结尾标识的候选解码序列及其对应的分值移至输出解码序列表,其中,所述结尾标识为表征所述候选解码序列是结束序列的标识;依据所述输出解码序列表中各个输出解码序列的分值和所述候选解码序列表中的最高分值的大小关系,确定所述反馈文本。4.根据权利要求3所述的方法,其特征在于,所述注意力掩码信息包括第一注意力掩码和第二注意力掩码,所述第一注意力掩码和所述第二注意力掩码的掩码位置不同;所述将所述融合数据输入文本识别网络模型的文本编码层,获得编码特征序列向量,包括:将所述第一注意力掩码输入至所述文本编码层中进行处理,获得第一注意力分布;将所述第二注意力掩码输入至所述文本编码层中进行处理,获得第二注意力分布;依据所述第一注意力分布和所述第二注意力分布,确定目标注意力分布;基于所述目标注意力分布对所述融合数据进行编码,获得所述编码特征序列向量。5.根据权利要求3所述的方法,其特征在于,所述初始解码序列表包括起始标识、K个初始解码序列及其对应的分值,K为大于或等于1的整数;所述遍历初始解码序列表,分别将所述编码特征序列向量和所述初始解码序列表中的每个初始编码序列输入所述文本识别网络模型的文本解码层进行处理,获得候选解码序列表,包括:分别将所述编码特征序列向量和所述初始解码序列表中的每个初始解码序列输入至
所述文本解码层中进行解码,获得预测概率表,其中,所述预测概率表包括预测概率值大于预设概率阈值的N个候选预测词以及每个候选预测词对应的预测概率值,N为小于或等于K的整数;分别将所述N个候选预测词加入到所述初始解码序列表中每个初始解码序列的尾部,获得待处理解码序列表,所述待处理解码序列表包括N*K个待处理解码序列;将每个待处理解码序列中的候选预测词的预测概率值与其对应的初始解码序列的分值进行相乘运算,获得每个待处理解码序列对应的分值;将所述待处理解码序列表中的分值大于预设阈值的前K个序列作为候选解码序列,获得所述候选解码序列表。6.根据权利要求3至5中任一项所述的方法,其特征在于,所述依据所述输出解码序列表中各个输出解码序列的分值和所述候选解码序列表中的最高分值的大小关系,确定所述反馈文本,包括:在确定所述输出解码序列表中的最高分值大于或等于所述候选解码序...
【专利技术属性】
技术研发人员:汪自立,马超,夏粉,蒋宁,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。