文本编码方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37613516 阅读:8 留言:0更新日期:2023-05-18 12:05
本申请提供了一种文本编码方法、装置、电子设备及存储介质,该文本编码方法包括:将长文本划分成多个短文本;对多个短文本分别进行编码,得到多个编码信息;针对多个短文本中的第N个短文本,结合第N个短文本对应的第N个编码信息以及第N

【技术实现步骤摘要】
文本编码方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,具体涉及一种文本编码方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能的快速发展,文本语义识别技术广泛应用于人们的生活、学习、工作等各个领域,如智能交互系统、意图识别系统等等。文本语义识别技术的关键点在于获得语义丰富的编码信息。对于短文本,利用目前的编码方法得到的编码信息,可以较好地覆盖短文本的语义信息,而对于长文本,利用目前的编码方法得到的编码信息,难以涵盖长文本中的真实语义信息,容易遗漏语义信息、或偏离真实的语义信息。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种文本编码方法、装置、电子设备及存储介质,能够提高长文本对应的编码信息的精确度,使得长文本对应的编码信息更切合长文本的语义。
[0004]第一方面,本申请的实施例提供了一种文本编码方法,包括:将长文本划分成多个短文本,多个短文本中每个短文本的字符长度小于或等于第一预设阈值;对多个短文本分别进行编码,得到多个编码信息;针对多个短文本中的第N个短文本,结合第N个短文本对应的第N个编码信息以及第N

1个短文本对应的综合编码信息,得到第N个短文本对应的综合编码信息,其中,N大于或等于2,第一个短文本对应的综合编码信息为第一个短文本对应的编码信息;将多个短文本对应的综合编码信息分别输入主题提取模型,得到多个短文本对应的多个主题信息;融合多个短文本中最后一个短文本对应的综合编码信息以及多个主题信息,得到长文本对应的编码信息,长文本对应的编码信息用于表征长文本包含的语义信息。
[0005]第二方面,本申请的实施例提供了一种文本编码装置,包括:划分模块,用于将长文本划分成多个短文本,多个短文本中每个短文本的字符长度小于或等于第一预设阈值;编码模块,用于对多个短文本分别进行编码,得到多个编码信息;编码模块还用于,针对多个短文本中的第N个短文本,结合第N个短文本对应的第N个编码信息以及第N

1个短文本对应的综合编码信息,得到第N个短文本对应的综合编码信息,其中,N大于或等于2,第一个短文本对应的综合编码信息为第一个短文本对应的编码信息;主题提取模块,用于将多个短文本对应的综合编码信息分别输入主题提取模型,得到多个短文本对应的多个主题信息;融合模块,用于融合多个短文本中最后一个短文本对应的综合编码信息以及多个主题信息,得到长文本对应的编码信息,长文本对应的编码信息用于表征长文本包含的语义信息。
[0006]第三方面,本申请的实施例提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器,其中,处理器用于执行上述第一方面所述的文本编码方法。
[0007]第四方面,本申请的实施例提供了一种计算机可读存储介质,存储介质存储有计
算机程序,计算机程序用于执行上述第一方面所述的文本编码方法。
[0008]第五方面,本申请的实施例提供了一种计算机程序产品,所述计算机程序产品中包括指令,所述指令被计算机设备的处理器执行时,使得所述计算机设备能够执行上述第一方面所述的文本编码方法。
[0009]本申请实施例提供了一种文本编码方法、装置、电子设备及存储介质,通过将长文本划分成多个短文本,并对多个短文本进行编码得到多个编码信息,可以解决目前难以对长文本直接进行编码的问题。进一步地,针对当前短文本,可通过结合当前短文本的编码信息以及当前短文本之前的短文本的综合编码信息,得到当前短文本的综合编码信息,并根据当前短文本的综合编码信息提取当前短文本的主题信息。由于当前短文本的综合编码信息结合了之前短文本的综合编码信息,因此当前短文本的综合编码信息可以包含前文的关键信息,进而可以较为准确地表征当前短文本对应的语义信息。这样可以提高基于该综合编码信息得到的主题信息的准确度,提高主题信息与当前短文本在语义上的贴切程度。此外,根据最后一个短文本对应的综合编码信息以及多个主题信息得到长文本对应的编码信息,可以利用多个主题信息对综合编码信息进行校正,降低遗漏文本语义信息的风险,提高长文本对应的编码信息的精确度,使得长文本对应的编码信息更切合长文本的语义。
附图说明
[0010]图1所示为本申请一示例性实施例提供的文本编码方法的流程示意图。
[0011]图2所示为本申请一示例性实施例提供的文本编码过程的示意图。
[0012]图3所示为本申请一示例性实施例提供的预设模型的结构示意图。
[0013]图4所示为本申请另一示例性实施例提供的文本编码方法的流程示意图。
[0014]图5所示为本申请一示例性实施例提供的文本编码装置的结构示意图。
[0015]图6所示为本申请一示例性实施例提供的用于执行文本编码方法的电子设备的框图。
具体实施方式
[0016]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0017]申请概述
[0018]在人工智能领域,语义理解是一个重要环节,例如,精准地获取输入文本的语义信息,可以有效地提升下游任务的分析效果。一般地,可以利用模型对输入文本进行编码得到编码信息,如果模型的语义理解效果好,则编码信息可以精确地概括输入文本的语义信息。
[0019]在一般情况下,编码信息的精确度会受文本长短的影响,文本越长,模型对文本整体语义的理解效果越差,得到的编码信息的精确度越低。这种问题产生的主要原因在于模型的语义概括能力有限,越长的文本越考验模型的语义理解和概括能力,具体地,由于存在长距离依赖问题,模型会对文本前面部分的内容有遗忘,导致得到的编码信息偏离文本的真实语义信息。
[0020]针对上述技术问题,本申请实施例将长文本划分成多个短文本,并对多个短文本进行编码得到多个编码信息。针对当前短文本,通过结合当前短文本以及之前短文本的编码信息得到当前短文本的综合编码信息,并根据综合编码信息提取当前短文本的主题信息,进而根据各个短文本对应的编码信息以及主题信息得到长文本对应的编码信息。由于每个综合编码信息结合了之前短文本的编码信息,因此可以保证获得的主题信息的准确性。此外,主题信息是短文本中的重要信息,因此可以对最终的编码信息进行校正,提高长文本的编码信息的精确度。
[0021]示例性方法
[0022]图1所示为本申请一示例性实施例提供的文本编码方法的流程示意图。图1的方法可由计算设备执行。计算设备可以是终端设备或服务器,具体地,终端设备可以是手机、平板、个人计算机、个人数字助理等设备;服务器可以是独立的物理服务器、服务器集群或者是能够进行云计算的云服务器。如图1所示,该文本编码方法包括如下内容。
[0023]110:将长文本划分成多个短文本,多个短文本中每个短文本的字符长度小于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:将长文本划分成多个短文本,所述多个短文本中每个短文本的字符长度小于或等于第一预设阈值;对所述多个短文本分别进行编码,得到多个编码信息;针对所述多个短文本中的第N个短文本,结合所述第N个短文本对应的第N个编码信息以及第N

1个短文本对应的综合编码信息,得到所述第N个短文本对应的综合编码信息,其中,N大于或等于2,第一个短文本对应的综合编码信息为所述第一个短文本对应的编码信息;将所述多个短文本对应的综合编码信息分别输入主题提取模型,得到所述多个短文本对应的多个主题信息;融合所述多个短文本中最后一个短文本对应的综合编码信息以及所述多个主题信息,得到所述长文本对应的编码信息,所述长文本对应的编码信息用于表征所述长文本包含的语义信息。2.根据权利要求1所述的文本编码方法,其特征在于,所述融合所述多个短文本中最后一个短文本对应的综合编码信息以及所述多个主题信息,得到所述长文本对应的编码信息,包括:对所述最后一个短文本对应的综合编码信息以及所述多个主题信息进行拼接,得到第一拼接编码信息;对所述第一拼接编码信息进行压缩编码,得到所述长文本对应的编码信息。3.根据权利要求1所述的文本编码方法,其特征在于,所述结合所述第N个短文本对应的第N个编码信息以及第N

1个短文本对应的综合编码信息,得到所述第N个短文本对应的综合编码信息,包括:对所述第N个编码信息以及所述第N

1个短文本对应的综合编码信息进行拼接,得到第二拼接编码信息,并对所述第二拼接编码信息进行压缩编码,得到所述第N个短文本对应的综合编码信息。4.根据权利要求2所述的文本编码方法,其特征在于,所述对所述最后一个短文本对应的综合编码信息以及所述多个主题信息进行拼接,得到第一拼接编码信息,包括:对所述多个主题信息进行拼接,得到拼接主题信息;利用所述主题提取模型对所述拼接主题信息进行主题信息的提取,得到长文本主题信息;对所述最后一个短文本对应的综合编码信息以及所述长文本主题信息进行拼接,得到所述第一拼接编码信息。5.根据权利要求3所述的文本编码方法,其特征在于,所述对所述多个短文本分别进行编码,得到多个编码信息,包括:将所述多个短文本分别输入编码模型,得到所述多个编码信息,其中,所述对所述第N个编码信息以及所述第N

1个短文本对应的综合编码信息进行拼接,得到第二拼接编码信息,并对所述第二拼接编码信息进行压缩编码,得到所述第N个短文本对应的综合编码信息,包括:利用所述编码模型对所述第N个编码信息和所述第N

1个短文本对应的综合...

【专利技术属性】
技术研发人员:吕乐宾蒋宁夏粉肖冰李宽丁隆耀
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1