文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37597410 阅读:21 留言:0更新日期:2023-05-18 11:45
本申请公开了一种文本处理方法、装置、电子设备及存储介质,用于实现对包含非汉字信息的文本的语义的准确解析。所述方法包括:获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。标汉字序列。标汉字序列。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]文本是人与人之间以及人机之间交流的重要工具之一,尤其对于一些有口语表达障碍的用户与外界之间的交流。人类书写的文本并不是从一开始就是规范的,在个体正确且完全使用汉字表达之前,因认识的汉字数量有限,而想要表达的语义无限,必然会存在使用汉字以外的符号辅助表达的过渡阶段,也即采用已知表示未知。例如,一些认识的汉字数量有限的用户,常常喜欢使用拼音或者图形等非汉字信息来替代所想表达的汉字,这就需要电子设备能够准确解析用户创作的文本的语义,以便实现用户与电子设备之间的人机交互或者用户与其他用户之间的交流。
[0003]但是,相关技术中的文本解析方案仅适用于由汉字构成的文本,若文本中还包含了拼音或图形等非汉字信息,则无法准确解析文本的语义,进而导致用户与外界之间交流困难。

技术实现思路

[0004]本申请实施例的目的提供一种文本处理方法、装置及电子设备,用于实现对包含非汉字信息的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。2.根据权利要求1所述的方法,其特征在于,所述基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本,包括:从所述目标文本包含的汉字信息中,获取与所述非汉字信息关联的目标汉字信息;基于所述目标汉字信息和所述非汉字信息分别在所述目标文本中的排列顺序,对所述目标汉字信息和所述非汉字信息进行拼接处理,得到候选文本;对所述候选文本中的所述非汉字信息进行掩码处理,得到所述掩码文本。3.根据权利要求1所述的方法,其特征在于,所述文本转换模型包括多个转换网络,每个转换网络对应一种类型的非汉字信息;所述通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息,包括:基于所述非汉字信息的类型,确定所述非汉字信息对应的转换网络;通过所述非汉字信息对应的转换网络,基于所述非汉字信息对应的掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息。4.根据权利要求3所述的方法,其特征在于,在通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测之前,所述方法还包括:获取训练数据,所述训练数据包括第一样本文本以及所述第一样本文本中的样本非汉字信息对应的汉字标签,所述训练数据用于训练所述文本转换模型中的目标转换网络;其中,所述目标转换网络为所述多个转换网络中的任一个转换网络,所述第一样本文本包括样本汉字信息以及所述样本非汉字信息,所述样本非汉字信息的类型与所述目标转换网络对应,所述汉字标签包括用于表示所述样本非汉字信息的语义的汉字;基于所述样本汉字信息对所述样本非汉字信息进行掩码处理,得到样本掩码文本;通过所述目标转换网络,基于所述样本掩码文本对所述样本非汉字信息进行汉字预测,得到所述样本非汉字信息对应的预测汉字信息;基于所述样本非汉字信息对应的预测汉字信息及汉字标签,更新所述目标转换网络的网络参数。5.根据权利要求1所述的方法,其特征在于,所述预测汉字信息包括用于表示所述非汉字信息的语义的多个预测汉字以及每个预测汉字对应的预测概率;所述...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1