文本识别方法、装置、非易失性存储介质及计算机设备制造方法及图纸

技术编号:34974385 阅读:14 留言:0更新日期:2022-09-21 14:15
本申请公开了一种文本识别方法、装置、非易失性存储介质及计算机设备。其中,该方法包括:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。确定与各个事件类型对应的事件信息。确定与各个事件类型对应的事件信息。

【技术实现步骤摘要】
文本识别方法、装置、非易失性存储介质及计算机设备


[0001]本申请涉及机器学习领域,具体而言,涉及一种文本识别方法、装置、非易失性存储介质及计算机设备。

技术介绍

[0002]在智能司法领域中,司法文书分析平台作为NLP在司法场景下的典型应用,承载知识的底座,肩负着对司法场景下各类文书(裁判起诉书、判决书、庭审笔录、证据材料等)的解析和分析。而在司法文书分析平台中,实体抽取和事件抽取是必不可少的自然语言处理任务基本能力,将文书中大段的事实文字描述抽象出来,形成结构化的文本并输出,能够使事实更加清晰地展现在用户面前,同时理清事件发展的脉络、事件与事件之间的关系等。同时为上游的各类任务形成必要的铺垫。
[0003]在复杂的事件描述中,行为人的“施/受”行为会发生转变,甚至,在复杂事件中,行为人具有多重的身份。譬如:“王某在被抢后追击李某,将其扑倒在地”,王某既是“财产”犯罪的受害者,又是“人身”犯罪的施害人。然而,现有技术由于试图一次性解决分类识别、触发词识别、事件元素抽取、论元判别四个基本问题,设计之初基于了一些理想的基本假设,如:元素之间重叠现象不明显;同一句话所表征的事件中,主客体是一致的,且不会发生变化;事件中的实体元素与触发词之间的的关系是单纯的。
[0004]经过统计,这样的系统可以解决司法文书刑事案由中90%的事件情况。但是显然,在真实的场景中,复杂的事件是存在的,解决这些复杂事件的抽取问题是需要攻克的难题。
[0005]针对上述的问题,目前尚未提出有效的解决方案。
专利技术内容
[0006]本申请实施例提供了一种文本识别方法、装置、非易失性存储介质及计算机设备,以至少解决由于无法处理复杂案件中行为人的多重身份造成的无法形成结构化文本的技术问题。
[0007]根据本申请实施例的一个方面,提供了一种文本识别方法,包括:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0008]根据本申请实施例的另一方面,还提供了一种文本识别方法,包括:获取待识别文本;对待识别文本进行第一次识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;对待识别文本进行第二次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0009]根据本申请实施例的另一方面,还提供了一种文本识别装置,包括:获取模块,用于获取待识别文本;第一识别模块,用于采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;第二识别模块,用于采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;确定模块,用于基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0010]根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行文本识别方法。
[0011]根据本申请实施例的另一方面,还提供了一种计算机设备,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
[0012]在本申请实施例中,采用获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息的方式,通过识别事件类型和各个事件类型对应的实体和论元信息,达到了确定与各个事件类型对应的事件信息的目的,从而实现了对复杂文本进行识别的技术效果,进而解决了由于无法处理复杂案件中行为人的多重身份造成的无法形成结构化文本的技术问题。
附图说明
[0013]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0014]图1是根据本申请实施例的一种计算机终端的硬件结构框图;
[0015]图2是根据本申请实施例的一种文本识别方法的的流程示意图;
[0016]图3是根据本申请实施例的另一种文本识别方法的流程示意图;
[0017]图4是根据本申请实施例的一种文本识别装置的结构示意图;
[0018]图5是根据本申请实施例的一种文本识别方法的工作流程示意图;
[0019]图6a是根据本申请实施例的一种事件分类结果示意图;
[0020]图6b是根据本申请实施例的一种实体和论元识别结果示意图;
[0021]图7是根据本申请实施例的文本识别方法在在司法文书分析中的算法地位示意图;
[0022]图8是根据本申请实施例的文本识别方法的交互界面示意图。
具体实施方式
[0023]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0024]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:获取待识别文本;采用机器学习模型中的事件识别模型对所述待识别文本进行识别,得到第一识别结果,其中,所述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词;采用所述机器学习模型中的实体识别模型对所述待识别文本进行识别,得到第二识别结果,其中,所述第二识别结果中包括与各个事件类型对应的实体和论元信息;基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。2.根据权利要求1所述的方法,其特征在于,基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息之前,所述方法还包括:统计所述待识别文本中事件触发词的第一数量,以及所述待识别文本中所述事件类型的第二数量;比较所述第一数量和第二数量的大小;依据比较结果确定所述待识别文本中的所有事件触发词进行筛选,得到目标事件触发词。3.根据权利要求2所述的方法,其特征在于,依据比较结果确定所述待识别文本中的所有事件触发词进行筛选,得到目标事件触发词,包括:在所述比较结果指示所述第一数量大于所述第二数量时,确定所述待识别文本中所有事件触发词的评估指标;将所述待识别文本中所有事件触发词按照评估指标的大小进行排序;并依据排序结果从所述第一数量的事件触发词中选择所述目标事件触发词。4.根据权利要求3所述的方法,其特征在于,从所述第一数量的事件触发词中选择的所述目标事件触发词的数量与所述第二数量相同。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在所述比较结果指示所述第一数量小于所述第二数量时,生成提示信息,该提示信息用于提示所述事件触发词的识别结果有误。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述第一数量为非零值,所述第二数量为零值时,则拒绝执行以下步骤:基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。7.根据权利要求1所述的方法,其特征在于,所述事件识别模型通过以下方式训练得到的:将多组第一样本数据分别输入至所述事件识别模型进行训练,其中,所述多组第一样本数据中的每组数据均包括:第一样本文本、用于确定所述第一样本文本中事件触发词的第一问题模板、与所述第一问题模板对应的答案信息和事件类型。8.根据权利要求1所述的方法,其特征在于,所述事件识别模型通过以下方式训练得...

【专利技术属性】
技术研发人员:魏梦溪张雅婷
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1