文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37597410 阅读:5 留言:0更新日期:2023-05-18 11:45
本申请公开了一种文本处理方法、装置、电子设备及存储介质,用于实现对包含非汉字信息的文本的语义的准确解析。所述方法包括:获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。标汉字序列。标汉字序列。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,尤其涉及一种文本处理方法、装置、电子设备及存储介质。

技术介绍

[0002]文本是人与人之间以及人机之间交流的重要工具之一,尤其对于一些有口语表达障碍的用户与外界之间的交流。人类书写的文本并不是从一开始就是规范的,在个体正确且完全使用汉字表达之前,因认识的汉字数量有限,而想要表达的语义无限,必然会存在使用汉字以外的符号辅助表达的过渡阶段,也即采用已知表示未知。例如,一些认识的汉字数量有限的用户,常常喜欢使用拼音或者图形等非汉字信息来替代所想表达的汉字,这就需要电子设备能够准确解析用户创作的文本的语义,以便实现用户与电子设备之间的人机交互或者用户与其他用户之间的交流。
[0003]但是,相关技术中的文本解析方案仅适用于由汉字构成的文本,若文本中还包含了拼音或图形等非汉字信息,则无法准确解析文本的语义,进而导致用户与外界之间交流困难。

技术实现思路

[0004]本申请实施例的目的提供一种文本处理方法、装置及电子设备,用于实现对包含非汉字信息的文本的语义的准确解析。
[0005]为了实现上述目的,本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供一种文本处理方法,包括:
[0007]获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;
[0008]基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;
[0009]通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;
[0010]基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。
[0011]第二方面,本申请实施例提供一种文本处理装置,包括:
[0012]获取单元,用于获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;
[0013]掩码单元,用于基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;
[0014]预测单元,用于通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;
[0015]确定单元,用于基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定
用于表示所述目标文本的语义的汉字序列。
[0016]第三方面,本申请实施例提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。
[0017]第四方面,本申请实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述的方法。
[0018]本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
[0019]对于包含汉字信息和非汉字信息的目标文本,利用自然语言处理中的自然语言推理技术,基于目标文本中的汉字信息对非汉字信息进行掩码处理,得到掩码文本,该掩码文本实际上是非汉字信息的上下文,其与非汉字信息之间的蕴含关系能够反映出非汉字信息在文本中的含义;然后,利用文本转换模型的语义理解和字符预测能力,由文本转换模型充分挖掘和理解掩码文本与非汉字信息之间的蕴含关系,基于掩码文本对非汉字信息进行汉字预测,可以得到能够准确表征非汉字信息的语义的预测汉字信息;进一步,利用目标文本中的汉字信息以及非汉字信息对应的预测汉字信息,即可得到能够准确表示目标文本的语义的目标汉字序列,从而实现对包含非汉字信息的文本的语义的准确解析。
附图说明
[0020]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0021]图1A为本申请实施例提供的文本处理方法所适用的一种应用场景的示意图;
[0022]图1B为本申请实施例提供的文本处理方法所适用的另一种应用场景的示意图;
[0023]图2为本申请的一个实施例提供的一种文本处理方法的流程示意图;
[0024]图3为本申请的另一个实施例提供的一种文本处理方法的流程示意图;
[0025]图4为本申请的又一个实施例提供的一种文本处理方法的流程示意图;
[0026]图5为本申请的一个实施例提供的一种文本处理装置的结构示意图;
[0027]图6为本申请的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
[0028]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0029]本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应理解,这样使用的数据在适当的情况下可以互换,以便本申请实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,本说明书和权利要求书中“和/或”表示所连接对象的至少其中之一,字符“/”一般表示前后关联的对象是一种“或”的关系。
[0030]部分概念说明:
[0031]自然语言处理(Natural Language Processing,NLP):是计算机科学领域与人工
智能领域中的一个重要方向,它研究能实现人与计算机之间利用自然语言进行有效通信的各种理论和方法。
[0032]Bert:全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(Masked Language Model,MLM),以致能生成深度的双向语言表征。
[0033]Transformers:是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(Masked Language Model,MLM),以致能生成深度的双向语言表征。
[0034]语言模型困惑度(perplexity,ppl):用来衡量一个语言模型在未见过的字符串S上的表现。对于一个长度为N的字符串S,语言模型给出概率P(S),对应的混淆度(Perplexity)为2^{

(1/N)log2 P(S)}。其中字符串长度单位可以是字符(characters)也可以是单词(words)。
[0035]如背本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理的目标文本包含的汉字信息和非汉字信息,所述非汉字信息包括拼音和图形中的至少一种;基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本;通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息;基于所述汉字信息和所述非汉字信息对应的预测汉字信息,确定用于表示所述目标文本的语义的目标汉字序列。2.根据权利要求1所述的方法,其特征在于,所述基于所述汉字信息对所述非汉字信息进行掩码处理,得到掩码文本,包括:从所述目标文本包含的汉字信息中,获取与所述非汉字信息关联的目标汉字信息;基于所述目标汉字信息和所述非汉字信息分别在所述目标文本中的排列顺序,对所述目标汉字信息和所述非汉字信息进行拼接处理,得到候选文本;对所述候选文本中的所述非汉字信息进行掩码处理,得到所述掩码文本。3.根据权利要求1所述的方法,其特征在于,所述文本转换模型包括多个转换网络,每个转换网络对应一种类型的非汉字信息;所述通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息,包括:基于所述非汉字信息的类型,确定所述非汉字信息对应的转换网络;通过所述非汉字信息对应的转换网络,基于所述非汉字信息对应的掩码文本对所述非汉字信息进行汉字预测,得到所述非汉字信息对应的预测汉字信息。4.根据权利要求3所述的方法,其特征在于,在通过文本转换模型基于所述掩码文本对所述非汉字信息进行汉字预测之前,所述方法还包括:获取训练数据,所述训练数据包括第一样本文本以及所述第一样本文本中的样本非汉字信息对应的汉字标签,所述训练数据用于训练所述文本转换模型中的目标转换网络;其中,所述目标转换网络为所述多个转换网络中的任一个转换网络,所述第一样本文本包括样本汉字信息以及所述样本非汉字信息,所述样本非汉字信息的类型与所述目标转换网络对应,所述汉字标签包括用于表示所述样本非汉字信息的语义的汉字;基于所述样本汉字信息对所述样本非汉字信息进行掩码处理,得到样本掩码文本;通过所述目标转换网络,基于所述样本掩码文本对所述样本非汉字信息进行汉字预测,得到所述样本非汉字信息对应的预测汉字信息;基于所述样本非汉字信息对应的预测汉字信息及汉字标签,更新所述目标转换网络的网络参数。5.根据权利要求1所述的方法,其特征在于,所述预测汉字信息包括用于表示所述非汉字信息的语义的多个预测汉字以及每个预测汉字对应的预测概率;所述...

【专利技术属性】
技术研发人员:白安琪蒋宁夏粉吴海英肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1