一种命名实体识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:24708784 阅读:25 留言:0更新日期:2020-07-01 00:05
本申请实施例属于人工智能技术领域,涉及一种命名实体识别方法,所述方法包括:接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。本申请还提供一种命名实体识别装置、计算机设备及存储介质。本申请提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。

【技术实现步骤摘要】
一种命名实体识别方法、装置、计算机设备及存储介质
本申请涉及人工智能
,尤其涉及一种命名实体识别方法、装置、计算机设备及存储介质。
技术介绍
电子病历中的命名实体识别(NamedEntityRecognition,NER),是从电子病历的描述性文本中找出与患者相关的一些临床实体,比如病人的患病部位,症状,使用过的药物和手术等。中文电子病历的命名实体识别是中文电子病历信息提取的关键,可为病历检索、疾病预测、医疗知识图谱的构建等中文健康信息处理工作奠定基础。但电子病历中存在较多的未登录词,且数量不断增加,而且,和英语相比,中文命名实体的识别任务更加复杂。现有一种命名实体识别方法,通过收集疾病名称,生成疾病字典库;读取医疗领域文本,根据最大匹配规则,匹配疾病字典库;最终获取匹配成功的实体。然而,传统的命名实体识别方法普遍不智能,只有在字典库中出现的疾病才能够被识别出来,对于新的疾病实体不能够别识别出来,泛化能力较弱,维护疾病字典库的疾病实体的工作量繁琐,人力资源耗费较大。
技术实现思路
本申请实施例的目的在于提出一种一种命名实体识别方法,旨在解决传统的命名实体识别方法泛化能力较弱,人力资源耗费较大的问题。为了解决上述技术问题,本申请实施例提供一种命名实体识别方法,采用了如下所述的技术方案:接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。为了解决上述技术问题,本申请实施例还提供一种命名实体识别装置,采用了如下所述的技术方案:请求接收模块,用于接收用户终端发送的携带有原始文本的识别请求;预处理模块,用于对所述原始文本进行预处理操作,获取标注数据;结果预测模块,用于将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;结果确认模块,用于将满足预测阈值的所述实体预测结果作为实体识别结果;结果输出模块,用于向所述用户终端输出所述实体识别结果。为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:包括存储器和处理器,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述命名实体识别方法的步骤。为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述命名实体识别方法的步骤。与现有技术相比,本申请实施例主要有以下有益效果:本专利技术申请提供了一种命名实体识别方法,接收用户终端发送的携带有原始文本的识别请求;对所述原始文本进行预处理操作,获取标注数据;将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;将满足预测阈值的所述实体预测结果作为实体识别结果;向所述用户终端输出所述实体识别结果。通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。附图说明为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的命名实体识别方法的实现流程图;图2是图1中步骤S102的实现流程图;图3是图1中步骤S103的实现流程图;图4是图3中步骤S305的实现流程图;图5是本专利技术实施例二提供的命名实体识别装置的结构示意图;图6是图5中预处理模块的结构示意图;图7是根据本申请的计算机设备的一个实施例的结构示意图。具体实施方式除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。为了使本
的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。本专利技术实施例提供的命名实体识别方法,通过预处理操作将原始文本按照文字信息、拼音信息以及偏旁部首信息进行标注,并将该文字信息、拼音信息以及偏旁部首信息输入至实体预测模型,得到预测结果,从而提升了模型的泛化能力;对于未出现在字典库中的疾病实体也能够识别处理;对于新的疾病组合实体也能够识别出来;模型能够根据上下文语义信息来识别疾病实体,提升了模型的召回率和准确类。实施例一图1示出了本专利技术实施例一提供的命名实体识别方法的实现流程图,为了便于说明,仅示出与本专利技术相关的部分。在步骤S101中,接收用户终端发送的携带有原始文本的识别请求。在本专利技术实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对用户终端的举例仅为方便理解,不用于限定本专利技术。在本专利技术实施例中,原始文本指的是医疗领域的文本或者数据,作为示例,例如药品说明书、电子病历等,应当理解的是,此处对原始文本的举例仅为方便理解,不用于限定本专利技术。在步骤S102中,对所述原始文本进行预处理操作,获取标注数据。在本专利技术实施例中,预处理操作指的是将原始文本中的每个字拆出来,以字为单位进行标注处理。在本专利技术实施例中,标注数据指的是对上述原始文本中的字体进行标注,标注内容包括:字体、拼音以及偏旁部首,作为示例,例如“高血压”,那么标注数据则为:高(gao)(高)血(xiě)(血)压(yā)(厂),其中,拼音信息和偏旁部首信息是通过读取拼音映本文档来自技高网
...

【技术保护点】
1.一种命名实体识别方法,其特征在于,所述方法包括下述步骤:/n接收用户终端发送的携带有原始文本的识别请求;/n对所述原始文本进行预处理操作,获取标注数据;/n将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;/n将满足预测阈值的所述实体预测结果作为实体识别结果;/n向所述用户终端输出所述实体识别结果。/n

【技术特征摘要】
1.一种命名实体识别方法,其特征在于,所述方法包括下述步骤:
接收用户终端发送的携带有原始文本的识别请求;
对所述原始文本进行预处理操作,获取标注数据;
将所述标注数据输入至训练好的实体预测模型进行实体预测操作,获取实体预测结果;
将满足预测阈值的所述实体预测结果作为实体识别结果;
向所述用户终端输出所述实体识别结果。


2.如权利要求1所述的命名实体识别方法,其特征在于,所述对所述原始文本进行预处理操作,获取标注数据的步骤,具体包括如下步骤:
读取疾病字典库,基于最大匹配规则在所述疾病字典库中获取与所述原始文本相对应的实体数据;
基于预设的标注规则对所述实体数据进行标注操作,获得所述标注数据。


3.如权利要求2所述的命名实体识别方法,其特征在于,所述预设的标注规则包括:
实体的起始位置标识为B;
实体的中间位置标识为M;
实体的结束位置标识为E;
单个组成的实体标识为S;
其他标识为0。


4.如权利要求1所述的命名实体识别方法,其特征在于,所述将所述标注数据输入至预设的实体预测模型,获取实体预测结果的步骤,具体包括如下步骤:
读取系统数据库,在所述系统数据库中获取训练文本;
基于所述最大匹配规则在所述疾病字典库中获取与所述训练文本相对应的训练实体数据;
对所述训练实体数据进行所述预处理操作,获取训练标注数据;
获取与所述训练标注数据相对应的特征数据;
将所述特征数据导入条件随机场模型进行预测模型训练;
将训练后的所述条件随机场模型作为所述预设的实体预测模型。


5.如权利要求4所述的命名实体识别方法,其特征在于,所述将所述特征数据导入条件随机场模型进行预测模型训练的步骤,具体包括如下步骤:
获取与所述特征数据相对应的转移特征函数:
λjtj(s,i,li,li-1);
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列给第i个单词标注的标签;li-1表示要评分的标注序列给第i-1个单词标注的标签;λ表示特征函数的权重系数;
获取与所述特征数据相对应的状态特征函数:
ukgk(s,i,li);
其中,s为要标注疾病实体的句子;i表示句子s中第i个位置;li表示要评分的标注序列...

【专利技术属性】
技术研发人员:孙安国
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1