语料处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32896694 阅读:14 留言:0更新日期:2022-04-07 11:45
本申请实施例公开了语料处理方法、装置、存储介质及电子设备,上述方法包括确定目标语料中每个语料单元的置信度,上述语料单元的置信度表征上述语料单元正确表达关联语料单元的可靠程度,上述关联语料单元为上述目标语料对应的原始语料中,与上述语料单元对应的原始语料单元;基于上述每个语料单元的置信度,对上述每个语料单元进行特征提取,得到上述每个语料单元的特征信息;根据上述每个语料单元的特征信息,得到上述目标语料对应的语料特征信息;对上述语料特征信息进行语料修正处理,得到上述目标语料对应的修正语料。本申请实施例可以显著提升对目标语料的修正能力,提升修正结果的正确度。结果的正确度。结果的正确度。

【技术实现步骤摘要】
语料处理方法、装置、存储介质及电子设备


[0001]本申请实施例涉及人工智能领域,尤其涉及语料处理方法、装置、存储介质及电子设备。

技术介绍

[0002]语料在进行获取以及传播的过程中,可能会发生错误,从而导致最终使用的语料的正确度受到影响。以语料的获取过程为例,可以基于文字识别,也称光学字符识别(Optical Charater Recognition,OCR)进行语料获取,OCR是利用光学技术和计算机技术把印刷在或者写在图纸上的语料以文本形式提取出来,并转换成一种计算机能够接受、人又可以理解的格式的技术,可以用于实现语料快速获取,但是OCR获取语料的准确度有限。为了提升最终得到的语料的正确度,有必要进行语料修正。

技术实现思路

[0003]为了对语料进行修正,提升语料的正确度,本申请实施例提供语料处理方法、装置、存储介质及电子设备。
[0004]一方面,本申请实施例提供了一种语料处理方法,所述方法包括:
[0005]确定目标语料中每个语料单元的置信度,所述语料单元的置信度表征所述语料单元正确表达关联语料单元的可靠程度,所述关联语料单元为所述目标语料对应的原始语料中,与所述语料单元对应的原始语料单元;
[0006]基于所述每个语料单元的置信度,对所述每个语料单元进行特征提取,得到所述每个语料单元的特征信息;
[0007]根据所述每个语料单元的特征信息,得到所述目标语料对应的语料特征信息;
[0008]对所述语料特征信息进行语料修正处理,得到所述目标语料对应的修正语料。
[0009]另一方面,本申请实施例提供一种语料处理装置,所述装置包括:
[0010]置信度确定模块,用于确定目标语料中每个语料单元的置信度,所述语料单元的置信度表征所述语料单元正确表达关联语料单元的可靠程度,所述关联语料单元为所述目标语料对应的原始语料中,与所述语料单元对应的原始语料单元;
[0011]单元特征确定模块,用于基于所述每个语料单元的置信度,对所述每个语料单元进行特征提取,得到所述每个语料单元的特征信息;
[0012]语料特征获取模块,用于根据所述每个语料单元的特征信息,得到所述目标语料对应的语料特征信息;
[0013]修正处理模块,用于对所述语料特征信息进行语料修正处理,得到所述目标语料对应的修正语料。
[0014]另一方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种语料处理方法。
[0015]另一方面,本申请实施例提供了一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种语料处理方法。
[0016]本申请实施例提供了语料处理方法、装置、存储介质及设备。本申请实施例中语料特征信息中不仅包含与语料单元的置信度有关的特征信息,也包含了根据规范信息分词得到的分词标签信息,从而显著增强了语料特征信息对于语料单元本身以及语料单元上下文语境的表征能力,从而使得修正后的语料具备较好的正确度。以目标语料表征地址信息为例,本申请实施例得到的语料特征信息可以较大程度地对目标语料中的地址信息进行表征,从而得到较好的修正结果。
附图说明
[0017]为了更清楚地说明本申请实施例或相关技术中的技术方案和优点,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0018]图1是本申请实施例提供的一种语料处理方法的流程示意图;
[0019]图2是本申请实施例提供的确定语料单元的特征信息的流程示意图;
[0020]图3是本申请实施例提供的特征信息获取方法示意图;
[0021]图4是本申请实施例提供的语料特征信息流程示意图;
[0022]图5是本申请实施例提供的分词信息标签示意图;
[0023]图6是本申请实施例提供的神经网络的训练方法流程示意图;
[0024]图7是本申请实施例提供的语料处理装置框图;
[0025]图8是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
[0027]需要说明的是,本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028]为了使本申请实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图
及实施例,对本申请实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请实施例,并不用于限定本申请实施例。
[0029]以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果,本申请实施例首先对于相关专业名词进行解释:
[0030]人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0031]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料处理方法,其特征在于,所述方法包括:确定目标语料中每个语料单元的置信度,所述语料单元的置信度表征所述语料单元正确表达关联语料单元的可靠程度,所述关联语料单元为所述目标语料对应的原始语料中,与所述语料单元对应的原始语料单元;基于所述每个语料单元的置信度,对所述每个语料单元进行特征提取,得到所述每个语料单元的特征信息;根据所述每个语料单元的特征信息,得到所述目标语料对应的语料特征信息;对所述语料特征信息进行语料修正处理,得到所述目标语料对应的修正语料。2.根据权利要求1所述的方法,其特征在于,所述基于所述每个语料单元的置信度,对所述每个语料单元进行特征提取,得到所述每个语料单元的特征信息,包括:对所述目标语料进行基于语料单元的特征提取,得到每个语料单元的第一嵌入特征,所述第一嵌入特征表征所述每个语料单元的字形特征信息;对所述目标语料进行基于位置的特征提取,得到所述每个语料单元的第二嵌入特征,所述第二嵌入特征表征所述每个语料单元在所述目标语料中的位置特征信息;针对每个语料单元,根据所述语料单元的置信度、所述语料单元的第一嵌入特征和所述语料单元的第二嵌入特征,得到所述语料单元的特征信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述语料单元的置信度、所述语料单元的第一嵌入特征和所述语料单元的第二嵌入特征,得到所述语料单元的特征信息,包括:在所述语料单元的置信度小于置信度阈值的情况下,获取第一目标值,根据所述第一目标值、所述语料单元的第一嵌入特征和所述语料单元的第二嵌入特征,得到所述语料单元的特征信息,所述第一目标值表征所述语料单元在置信度小于所述置信度阈值情况下,在进行语料修正处理过程中的被关注程度;在所述语料单元的置信度大于等于所述置信度阈值的情况下,获取第二目标值,根据所述第二目标值、所述语料单元的第一嵌入特征和所述语料单元的第二嵌入特征,得到所述语料单元的特征信息,所述第二目标值表征所述语料单元在置信度大于等于所述置信度阈值情况下,在进行语料修正处理过程中的被关注程度。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述每个语料单元的特征信息,得到所述目标语料对应的语料特征信息,包括:获取所述目标语料对应的规范信息,所述规范信息表征所述目标语料应当遵循的语义规范信息;根据所述规范信息对所述目标语料进行分词处理,得到分词标签信息;将所述每个语料单元的特征信息,以及所述分词标签信息进行拼接,得到所述语料特征信息。5.根据权利要求4所述的方法,其特征在于,所述目标语料表征地址信息,所述规范信息为地址归属信息,所述根据所述规范信息对所述目标语料进行分词处理,得到分词标签信息,包括:在所述目标语料中识别与所述地址归属信息相符合的词,所述词包括至少两个...

【专利技术属性】
技术研发人员:吴云飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1