文本识别方法、装置、非易失性存储介质及计算机设备制造方法及图纸

技术编号：34974385 阅读：14 留言：0更新日期：2022-09-21 14:15

本申请公开了一种文本识别方法、装置、非易失性存储介质及计算机设备。其中，该方法包括：获取待识别文本；采用机器学习模型中的事件识别模型对待识别文本进行识别，得到第一识别结果，其中，第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词；采用机器学习模型中的实体识别模型对待识别文本进行识别，得到第二识别结果，其中，第二识别结果中包括与各个事件类型对应的实体和论元信息；基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。确定与各个事件类型对应的事件信息。确定与各个事件类型对应的事件信息。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别方法、装置、非易失性存储介质及计算机设备

[0001]本申请涉及机器学习领域，具体而言，涉及一种文本识别方法、装置、非易失性存储介质及计算机设备。

技术介绍

[0002]在智能司法领域中，司法文书分析平台作为NLP在司法场景下的典型应用，承载知识的底座，肩负着对司法场景下各类文书(裁判起诉书、判决书、庭审笔录、证据材料等)的解析和分析。而在司法文书分析平台中，实体抽取和事件抽取是必不可少的自然语言处理任务基本能力，将文书中大段的事实文字描述抽象出来，形成结构化的文本并输出，能够使事实更加清晰地展现在用户面前，同时理清事件发展的脉络、事件与事件之间的关系等。同时为上游的各类任务形成必要的铺垫。
[0003]在复杂的事件描述中，行为人的“施/受”行为会发生转变，甚至，在复杂事件中，行为人具有多重的身份。譬如：“王某在被抢后追击李某，将其扑倒在地”，王某既是“财产”犯罪的受害者，又是“人身”犯罪的施害人。然而，现有技术由于试图一次性解决分类识别、触发词识别、事件元素抽取、论元判别四个基本问题，设计之初基于了一些理想的基本假设，如：元素之间重叠现象不明显；同一句话所表征的事件中，主客体是一致的，且不会发生变化；事件中的实体元素与触发词之间的的关系是单纯的。
[0004]经过统计，这样的系统可以解决司法文书刑事案由中90％的事件情况。但是显然，在真实的场景中，复杂的事件是存在的，解决这些复杂事件的抽取问题是需要攻克的难题。
[0005]针对上述的问题，目前尚未提出有效的解决方案。
专利技...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法，其特征在于，包括：获取待识别文本；采用机器学习模型中的事件识别模型对所述待识别文本进行识别，得到第一识别结果，其中，所述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词；采用所述机器学习模型中的实体识别模型对所述待识别文本进行识别，得到第二识别结果，其中，所述第二识别结果中包括与各个事件类型对应的实体和论元信息；基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。2.根据权利要求1所述的方法，其特征在于，基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息之前，所述方法还包括：统计所述待识别文本中事件触发词的第一数量，以及所述待识别文本中所述事件类型的第二数量；比较所述第一数量和第二数量的大小；依据比较结果确定所述待识别文本中的所有事件触发词进行筛选，得到目标事件触发词。3.根据权利要求2所述的方法，其特征在于，依据比较结果确定所述待识别文本中的所有事件触发词进行筛选，得到目标事件触发词，包括：在所述比较结果指示所述第一数量大于所述第二数量时，确定所述待识别文本中所有事件触发词的评估指标；将所述待识别文本中所有事件触发词按照评估指标的大小进行排序；并依据排序结果从所述第一数量的事件触发词中选择所述目标事件触发词。4.根据权利要求3所述的方法，其特征在于，从所述第一数量的事件触发词中选择的所述目标事件触发词的数量与所述第二数量相同。5.根据权利要求3所述的方法，其特征在于，所述方法还包括：在所述比较结果指示所述第一数量小于所述第二数量时，生成提示信息，该提示信息用于提示所述事件触发词的识别结果有误。6.根据权利要求2所述的方法，其特征在于，所述方法还包括：在所述第一数量为非零值，所述第二数量为零值时，则拒绝执行以下步骤：基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。7.根据权利要求1所述的方法，其特征在于，所述事件识别模型通过以下方式训练得到的：将多组第一样本数据分别输入至所述事件识别模型进行训练，其中，所述多组第一样本数据中的每组数据均包括：第一样本文本、用于确定所述第一样本文本中事件触发词的第一问题模板、与所述第一问题模板对应的答案信息和事件类型。8.根据权利要求1所述的方法，其特征在于，所述事件识别模型通过以下方式训练得...

【专利技术属性】
技术研发人员：魏梦溪，张雅婷，
申请(专利权)人：阿里巴巴新加坡控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人