【技术实现步骤摘要】
文本编码方法、装置、电子设备及存储介质
[0001]本申请涉及自然语言处理
,具体涉及一种文本编码方法、装置、电子设备及存储介质。
技术介绍
[0002]随着人工智能的快速发展,文本语义识别技术广泛应用于人们的生活、学习、工作等各个领域,如智能交互系统、意图识别系统等等。文本语义识别技术的关键点在于获得语义丰富的编码信息。对于短文本,利用目前的编码方法得到的编码信息,可以较好地覆盖短文本的语义信息,而对于长文本,利用目前的编码方法得到的编码信息,难以涵盖长文本中的真实语义信息,容易遗漏语义信息、或偏离真实的语义信息。
技术实现思路
[0003]有鉴于此,本申请实施例提供了一种文本编码方法、装置、电子设备及存储介质,能够提高长文本对应的编码信息的精确度,使得长文本对应的编码信息更切合长文本的语义。
[0004]第一方面,本申请的实施例提供了一种文本编码方法,包括:将长文本划分成多个短文本,多个短文本中每个短文本的字符长度小于或等于第一预设阈值;对多个短文本分别进行编码,得到多个编码信息;针对多个短文本中的第N个短文本,结合第N个短文本对应的第N个编码信息以及第N
‑
1个短文本对应的综合编码信息,得到第N个短文本对应的综合编码信息,其中,N大于或等于2,第一个短文本对应的综合编码信息为第一个短文本对应的编码信息;将多个短文本对应的综合编码信息分别输入主题提取模型,得到多个短文本对应的多个主题信息;融合多个短文本中最后一个短文本对应的综合编码信息以及多个主题信息,得到长文本对 ...
【技术保护点】
【技术特征摘要】
1.一种文本编码方法,其特征在于,包括:将长文本划分成多个短文本,所述多个短文本中每个短文本的字符长度小于或等于第一预设阈值;对所述多个短文本分别进行编码,得到多个编码信息;针对所述多个短文本中的第N个短文本,结合所述第N个短文本对应的第N个编码信息以及第N
‑
1个短文本对应的综合编码信息,得到所述第N个短文本对应的综合编码信息,其中,N大于或等于2,第一个短文本对应的综合编码信息为所述第一个短文本对应的编码信息;将所述多个短文本对应的综合编码信息分别输入主题提取模型,得到所述多个短文本对应的多个主题信息;融合所述多个短文本中最后一个短文本对应的综合编码信息以及所述多个主题信息,得到所述长文本对应的编码信息,所述长文本对应的编码信息用于表征所述长文本包含的语义信息。2.根据权利要求1所述的文本编码方法,其特征在于,所述融合所述多个短文本中最后一个短文本对应的综合编码信息以及所述多个主题信息,得到所述长文本对应的编码信息,包括:对所述最后一个短文本对应的综合编码信息以及所述多个主题信息进行拼接,得到第一拼接编码信息;对所述第一拼接编码信息进行压缩编码,得到所述长文本对应的编码信息。3.根据权利要求1所述的文本编码方法,其特征在于,所述结合所述第N个短文本对应的第N个编码信息以及第N
‑
1个短文本对应的综合编码信息,得到所述第N个短文本对应的综合编码信息,包括:对所述第N个编码信息以及所述第N
‑
1个短文本对应的综合编码信息进行拼接,得到第二拼接编码信息,并对所述第二拼接编码信息进行压缩编码,得到所述第N个短文本对应的综合编码信息。4.根据权利要求2所述的文本编码方法,其特征在于,所述对所述最后一个短文本对应的综合编码信息以及所述多个主题信息进行拼接,得到第一拼接编码信息,包括:对所述多个主题信息进行拼接,得到拼接主题信息;利用所述主题提取模型对所述拼接主题信息进行主题信息的提取,得到长文本主题信息;对所述最后一个短文本对应的综合编码信息以及所述长文本主题信息进行拼接,得到所述第一拼接编码信息。5.根据权利要求3所述的文本编码方法,其特征在于,所述对所述多个短文本分别进行编码,得到多个编码信息,包括:将所述多个短文本分别输入编码模型,得到所述多个编码信息,其中,所述对所述第N个编码信息以及所述第N
‑
1个短文本对应的综合编码信息进行拼接,得到第二拼接编码信息,并对所述第二拼接编码信息进行压缩编码,得到所述第N个短文本对应的综合编码信息,包括:利用所述编码模型对所述第N个编码信息和所述第N
‑
1个短文本对应的综合...
【专利技术属性】
技术研发人员:吕乐宾,蒋宁,夏粉,肖冰,李宽,丁隆耀,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。