基于自然语言处理的数量提取方法和系统技术方案

技术编号:34034708 阅读:18 留言:0更新日期:2022-07-06 12:00
本发明专利技术涉及自然语言处理技术领域,提供一种基于自然语言处理的数量提取方法和系统。其中方法包括:获取包括数量的自然语言文本;基于自然语言文本运行数量提取模型,得到数量结果;数量提取模型的输入包括第一前缀语句、第一后缀语句以及自然语言文本,输出包括第二后缀语句。本发明专利技术通过将原始模型经过无监督的第一训练得到的中间模型具有更好的自然语言理解能力,中间模型经过有监督的第二训练得到的数量提取模型具有更好的数量提取能力,解决了现有技术中无法针对特定待提取目标和类型进行数量提取的问题,能够更为高效的完成数量提取任务。取任务。取任务。

【技术实现步骤摘要】
基于自然语言处理的数量提取方法和系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于自然语言处理的数量提取方法和系统。

技术介绍

[0002]数据提取(Data Extraction)指根据一定的目的,从原始文献中摘录所需要的信息,以作进一步存储、换算和分析的过程。
[0003]数据提取任务中,针对某一特定目标数量的提取是较为常见的需求。传统的数量提取,即针对数字本身进行的数量提取是相对简单和容易实现的,但这种方法得到的数字不具有实际含义,不利于后续的分析和评价。
[0004]因此,如何提供一种高效的、能够提取数量含义的数量提取方法成为了亟需解决的技术问题。

技术实现思路

[0005]本专利技术提供一种基于自然语言处理的数量提取方法和系统,用以解决现有技术中得到的数字不具有实际含义,不利于后续的分析和评价的缺陷,实现高效的、能够提取数量含义的数量提取。
[0006]本专利技术提供一种基于自然语言处理的数量提取方法,包括:
[0007]获取包括数量的自然语言文本;
[0008]基于所述自然语言文本运行数量提取模型,得到数量结果;
[0009]所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
[0010]所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
[0011]根据本专利技术提供的一种基于自然语言处理的数量提取方法,所述原始模型是以源序列为输入,以目标序列为输出,包括编码器和解码器的注意力模型;所述源序列和所述目标序列均为自然语言语素序列;
[0012]所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到语义编码;所述解码器能够根据所述语义编码得到目标序列中的自然语言语素;
[0013]所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权重。
[0014]根据本专利技术提供的一种基于自然语言处理的数量提取方法,所述第一训练包括:
[0015]以掩码替换所述第一样本中的自然语言语素并输入所述原始模型,预测被所述掩
码替换的自然语言语素的训练;
[0016]和/或,将所述第一样本中的至少两个自然语言语素输入所述原始模型,预测所述至少两个自然语言语素是否为相邻语素的训练。
[0017]根据本专利技术提供的一种基于自然语言处理的数量提取方法:
[0018]所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
[0019]所述解码器能够:
[0020]以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编码;
[0021]以所述源序列语义编码,和所述目标序列的第1个自然语言语素至第i

1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第i个自然语言语素的语素语义编码;i为大于1的整数;
[0022]根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
[0023]根据本专利技术提供的一种基于自然语言处理的数量提取方法,将经过第一训练后的原始模型记为中间模型,所述第二训练包括:
[0024]以包括第一前缀语句和第一后缀语句的第二样本作为源序列,输入中间模型得到包括第二后缀语句的目标序列,并基于所述目标序列和第二标签调整所述中间模型参数,从而得到所述数量提取模型的训练;
[0025]所述第一后缀语句包括待提取目标类型和数量掩码;所述第二后缀语句是在所述第一后缀语句的基础上,以预测数量替换所述数量掩码得到的;所述第二标签包括数量真值。
[0026]根据本专利技术提供的一种基于自然语言处理的数量提取方法,所述目标序列还包括第二前缀语句;
[0027]所述编码器能够以所述源序列和所述自然语言文本为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;
[0028]所述解码器能够:
[0029]以所述源序列语义编码为输入得到所述目标序列中第二前缀语句的语素语义编码;
[0030]以所述源序列语义编码为输入得到所述目标序列中第二后缀语句的第1个自然语言语素的语素语义编码;
[0031]以所述源序列语义编码,和所述目标序列中第二后缀语句的第1个自然语言语素至第j

1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第j个自然语言语素的语素语义编码;j为大于1的整数;
[0032]根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。
[0033]本专利技术还提供一种基于自然语言处理的数量提取系统,包括:
[0034]获取模块,用于获取包括数量的自然语言文本;
[0035]数量模块,用于基于所述自然语言文本运行数量提取模型,得到数量结果;
[0036]所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;
[0037]所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。
[0038]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于自然语言处理的数量提取方法的步骤。
[0039]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于自然语言处理的数量提取方法的步骤。
[0040]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于自然语言处理的数量提取方法的步骤。
[0041]本专利技术提供的基于自然语言处理的数量提取方法和系统,通过自然语言处理模型,针对自然语言文本进行问答式数量提取,即通过第一前缀语句确定待提取目标、第一后缀语句确定待提取目标类型输入数量提取模型,从而得到包括一一对应的待提取目标类型和数量的第二后缀语句作为数量提取结果,解决了现有技术中无法针对特定待提取目标和类型进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的数量提取方法,其特征在于,包括:获取包括数量的自然语言文本;基于所述自然语言文本运行数量提取模型,得到数量结果;所述数量提取模型的输入包括第一前缀语句、第一后缀语句以及所述自然语言文本,输出包括第二后缀语句;所述第一前缀语句是基于待提取目标设置的字符或字符串;所述第一后缀语句是基于待提取目标类型设置的字符或字符串;所述第二后缀语句包括与所述待提取目标类型一一对应的数量;所述数量提取模型是将原始模型依次以第一样本执行第一训练、以第二样本和对应于所述第二样本的标签执行第二训练后得到的;所述原始模型为自然语言处理模型;所述第一训练为无监督训练;所述第二训练为有监督训练。2.根据权利要求1所述的基于自然语言处理的数量提取方法,其特征在于,所述原始模型是以源序列为输入,以目标序列为输出,包括编码器和解码器的注意力模型;所述源序列和所述目标序列均为自然语言语素序列;所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到语义编码;所述解码器能够根据所述语义编码得到目标序列中的自然语言语素;所述注意力分配参数是针对所述源序列和/或所述目标序列中自然语言语素的计算权重。3.根据权利要求2所述的基于自然语言处理的数量提取方法,其特征在于,所述第一训练包括:以掩码替换所述第一样本中的自然语言语素并输入所述原始模型,预测被所述掩码替换的自然语言语素的训练;和/或,将所述第一样本中的至少两个自然语言语素输入所述原始模型,预测所述至少两个自然语言语素是否为相邻语素的训练。4.根据权利要求2所述的基于自然语言处理的数量提取方法,其特征在于:所述编码器能够以所述源序列为输入,基于预设的注意力分配参数得到至少两个源序列语义编码;所述至少两个源序列语义编码对应的注意力分配参数不同;所述解码器能够:以所述源序列语义编码为输入得到所述目标序列的第1个自然语言语素的语素语义编码;以所述源序列语义编码,和所述目标序列的第1个自然语言语素至第i

1个自然语言语素的语素语义编码集合为输入,得到所述目标序列的第i个自然语言语素的语素语义编码;i为大于1的整数;根据所述目标序列的自然语言语素的语素语义编码,得到所述目标序列的自然语言语素。5.根据权利要求3所述的基于自然语言处理的数量提取方法,其特征在于,将经过第一训练后的原始模型记为中间模型,所述第二训练包括:以包括第一前缀语句和第一后缀语句的第二样本作为源序列,输入中间模型得到包括第二后缀语句的目标序列,并基于所述目...

【专利技术属性】
技术研发人员:王则远刘鹏任丽军张震
申请(专利权)人:灵犀量子北京医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1