文本标准化处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:39245710 阅读:11 留言:0更新日期:2023-10-30 11:58
本申请涉及一种文本标准化处理方法、装置、电子设备及存储介质。该方法包括:获取待标准化文本以及多个语料对;基于文本标准化模型对待标准化文本进行特征提取处理以及标准化匹配处理,得到待标准化文本的目标文本特征以及待标准化文本在各标准文本下的匹配概率预测信息;基于目标文本特征与语料对中的原始文本特征之间的相似度信息,确定待标准化文本在预设标准文本下的匹配概率分布信息;利用匹配概率分布信息对匹配概率预测信息进行修正处理,得到待标准化文本在各标准文本下的目标匹配概率信息,以用于确定待标准化文本对应的目标标准文本。根据本申请的技术方案,可以提升文本标准化处理的泛化能力和精度。文本标准化处理的泛化能力和精度。文本标准化处理的泛化能力和精度。

【技术实现步骤摘要】
文本标准化处理方法、装置、电子设备及存储介质


[0001]本申请涉及数据处理
,尤其涉及一种文本标准化处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着互联网的广泛使用,各领域信息化建设成为了基础但重要的任务,例如医疗领域,为了提供精准且便捷的医疗搜索,会选择对医疗文本进行信息化建设,即对同一医疗术语下的相关文本进行统一化为标准文本。
[0003]相关技术中,一般选择深度学习模型来进行文本标准化处理,但由于训练样本较少且标注成本过高,使得模型对频次较低的非标准文本的学习不够,导致文本标准化处理中容易出现长尾问题,即频次较低的非标准文本的预测出现错误。为了提升预测准确度或者有效适用新的非标准文本,选择将出现长尾问题的非标准文本或新的非标准文本作为样本加入到训练集中重新训练深度学习模型,然而这种方式需要反复重新训练模型导致成本过高,而且不能保证原本预测正确的样本重新训练后仍旧预测正确。

技术实现思路

[0004]有鉴于上述存在的技术问题,本申请提出了一种文本标准化处理方法、装置、电子设备及存储介质。
[0005]根据本申请的一方面,提供了一种文本标准化处理方法,所述方法包括:
[0006]获取待标准化文本以及多个语料对,每个语料对包括原始文本的原始文本特征以及对应的标准文本;所述标准文本为相应领域中对所述原始文本的标准化描述;
[0007]将多个所述标准文本和所述待标准化文本输入文本标准化模型,对所述待标准化文本进行特征提取处理以及标准化匹配处理,得到所述待标准化文本的目标文本特征以及所述待标准化文本在各标准文本下的匹配概率预测信息;
[0008]基于所述目标文本特征与各原始文本特征之间的相似度信息,确定所述待标准化文本在预设标准文本下的匹配概率分布信息;所述预设标准文本为多个所述标准文本或所述相似度信息达到相似度条件的原始文本特征对应的标准文本;
[0009]利用所述匹配概率分布信息对所述匹配概率预测信息进行修正处理,得到所述待标准化文本在各标准文本下的目标匹配概率信息;
[0010]根据所述目标匹配概率信息,确定所述待标准化文本对应的目标标准文本;所述目标标准文本为多个所述标准文本中的一个。
[0011]根据本申请的另一方面,提供了一种文本标准化处理装置,包括:
[0012]获取模块,用于获取待标准化文本以及多个语料对,每个语料对包括原始文本的原始文本特征以及对应的标准文本;所述标准文本为相应领域中对所述原始文本的标准化描述;
[0013]特征提取与匹配模块,用于将多个所述标准文本和所述待标准化文本输入文本标
准化模型,对所述待标准化文本进行特征提取处理以及标准化匹配处理,得到所述待标准化文本的目标文本特征以及所述待标准化文本在各标准文本下的匹配概率预测信息;
[0014]匹配概率分布确定模块,用于基于所述目标文本特征与各原始文本特征之间的相似度信息,确定所述待标准化文本在预设标准文本下的匹配概率分布信息;所述预设标准文本为多个所述标准文本或所述相似度信息达到相似度条件的原始文本特征对应的标准文本;
[0015]修正模块,用于利用所述匹配概率分布信息对所述匹配概率预测信息进行修正处理,得到所述待标准化文本在各标准文本下的目标匹配概率信息;
[0016]标准文本确定模块,用于根据所述目标匹配概率信息,确定所述待标准化文本对应的目标标准文本;所述目标标准文本为多个所述标准文本中的一个。
[0017]根据本申请的另一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
[0018]根据本申请的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
[0019]根据本申请的另一方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时,使得计算机执行上述方法。
[0020]通过设置文本标准化模型外部的多个语料对,利用待标准化文本的目标文本特征与多个语料对中原始文本特征的相似度信息,确定待标准化文本在预设标准文本下的匹配概率分布信息,从而可以利用匹配概率分布信息修正文本标准化模型对待标准化文本进行预测的匹配概率预测信息,得到待标准化文本在各标准文本下的目标匹配概率信息,在不需要重新训练文本标准化模型的情况下,即可以提升文本标准化处理的泛化能力,避免文本标准化处理中的长尾问题,提升文本标准化处理的精准度。
[0021]根据下面参考附图对示例性实施例的详细说明,本申请的其它特征及方面将变得清楚。
附图说明
[0022]包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面,并且用于解释本申请的原理。
[0023]图1示出根据本申请一实施例提供的一种应用系统的示意图。
[0024]图2示出根据本申请一实施例提供的一种文本标准化处理方法的流程图。
[0025]图3示出根据本申请一实施例提供的一种确定预设标准文本的方法流程图。
[0026]图4示出根据本申请一实施例提供的一种基于目标文本特征与各原始文本特征之间的相似度信息,确定待标准化文本在预设标准文本下的匹配概率分布信息的方法流程图。
[0027]图5示出根据本申请一实施例提供的一种基于文本标准化模型进行特征提取以及标准化匹配的流程示意图。
[0028]图6示出根据本申请一实施例提供的一种匹配概率聚合信息的确定流程示意图。
[0029]图7示出根据本申请一实施例提供的一种文本标准化处理中目标匹配概率信息的确定流程示意图。
[0030]图8示出根据本申请一实施例提供的一种修正示例图。
[0031]图9示出根据本申请一实施例提供的一种文本标准化处理装置的框图。
[0032]图10是根据一示例性实施例示出的一种用于文本标准化处理的电子设备的框图。
[0033]图11示出根据本申请一实施例提供的一种用于文本标准化处理的电子设备的框图。
具体实施方式
[0034]以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0035]在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0036]另外,为了更好的说明本申请,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本申请同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本申请的主旨。
[0037]人工智能(Artificial Intelligence,AI)是利用数字计算机或者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标准化处理方法,其特征在于,所述方法包括:获取待标准化文本以及多个语料对,每个语料对包括原始文本的原始文本特征以及对应的标准文本;所述标准文本为相应领域中对所述原始文本的标准化描述;将多个所述标准文本和所述待标准化文本输入文本标准化模型,对所述待标准化文本进行特征提取处理以及标准化匹配处理,得到所述待标准化文本的目标文本特征以及所述待标准化文本在各标准文本下的匹配概率预测信息;基于所述目标文本特征与各原始文本特征之间的相似度信息,确定所述待标准化文本在预设标准文本下的匹配概率分布信息;所述预设标准文本为多个所述标准文本或所述相似度信息达到相似度条件的原始文本特征对应的标准文本;利用所述匹配概率分布信息对所述匹配概率预测信息进行修正处理,得到所述待标准化文本在各标准文本下的目标匹配概率信息;根据所述目标匹配概率信息,确定所述待标准化文本对应的目标标准文本;所述目标标准文本为多个所述标准文本中的一个。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本特征与各原始文本特征之间的相似度信息,确定所述待标准化文本在预设标准文本下的匹配概率分布信息,包括:对所述预设标准文本对应的相似度信息进行归一化处理,得到所述待标准化文本在预设标准文本下的归一化分值;所述预设标准文本对应的相似度信息为所述预设标准文本对应的原始文本特征与所述目标文本特征之间的相似度信息;根据所述归一化分值,确定所述待标准化文本在预设标准文本下的匹配概率分布信息。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对相同预设标准文本进行聚合处理,得到聚合后的预设标准文本;对相同预设标准文本下的匹配概率分布信息进行聚合处理,得到所述待标准化文本在所述聚合后的预设标准文本下的匹配概率聚合信息;所述利用所述匹配概率分布信息对所述匹配概率预测信息进行修正处理,得到所述待标准化文本在各标准文本下的目标匹配概率信息,包括:利用所述匹配概率聚合信息对所述匹配概率预测信息进行修正处理,得到所述待标准化文本在各标准文本下的目标匹配概率信息。4.根据权利要求1

3任一项所述的方法,其特征在于,所述方法还包括:从所述相似度信息中确定达到所述相似度条件的目标相似度信息;获取所述目标相似度信息对应的原始文本特征所属的目标语料对;将所述目标语料对中的标准文本确定为所述预设标准文本。5.根据权利要求1

3任一项所述的方法,其特征在于,所述方法还包括:确定所述目标文本特征与各原始文本特征之间的特征距离;基于所述特征距离...

【专利技术属性】
技术研发人员:林镇溪张子恒吴贤
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1