一种命名实体识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：24708784 阅读：28 留言：0更新日期：2020-07-01 00:05

本申请实施例属于人工智能技术领域，涉及一种命名实体识别方法，所述方法包括：接收用户终端发送的携带有原始文本的识别请求；对所述原始文本进行预处理操作，获取标注数据；将所述标注数据输入至训练好的实体预测模型进行实体预测操作，获取实体预测结果；将满足预测阈值的所述实体预测结果作为实体识别结果；向所述用户终端输出所述实体识别结果。本申请还提供一种命名实体识别装置、计算机设备及存储介质。本申请提升了模型的泛化能力；对于未出现在字典库中的疾病实体也能够识别处理；对于新的疾病组合实体也能够识别出来；模型能够根据上下文语义信息来识别疾病实体，提升了模型的召回率和准确类。

全部详细技术资料下载

【技术实现步骤摘要】
一种命名实体识别方法、装置、计算机设备及存储介质
本申请涉及人工智能
，尤其涉及一种命名实体识别方法、装置、计算机设备及存储介质。
技术介绍
电子病历中的命名实体识别(NamedEntityRecognition，NER)，是从电子病历的描述性文本中找出与患者相关的一些临床实体，比如病人的患病部位，症状，使用过的药物和手术等。中文电子病历的命名实体识别是中文电子病历信息提取的关键，可为病历检索、疾病预测、医疗知识图谱的构建等中文健康信息处理工作奠定基础。但电子病历中存在较多的未登录词，且数量不断增加，而且，和英语相比，中文命名实体的识别任务更加复杂。现有一种命名实体识别方法，通过收集疾病名称，生成疾病字典库；读取医疗领域文本，根据最大匹配规则，匹配疾病字典库；最终获取匹配成功的实体。然而，传统的命名实体识别方法普遍不智能，只有在字典库中出现的疾病才能够被识别出来，对于新的疾病实体不能够别识别出来，泛化能力较弱，维护疾病字典库的疾病实体的工作量繁琐，人力资源耗费较大。
技术实现思路
本...

【技术保护点】
1.一种命名实体识别方法，其特征在于，所述方法包括下述步骤：/n接收用户终端发送的携带有原始文本的识别请求；/n对所述原始文本进行预处理操作，获取标注数据；/n将所述标注数据输入至训练好的实体预测模型进行实体预测操作，获取实体预测结果；/n将满足预测阈值的所述实体预测结果作为实体识别结果；/n向所述用户终端输出所述实体识别结果。/n

【技术特征摘要】
1.一种命名实体识别方法，其特征在于，所述方法包括下述步骤：
接收用户终端发送的携带有原始文本的识别请求；
对所述原始文本进行预处理操作，获取标注数据；
将所述标注数据输入至训练好的实体预测模型进行实体预测操作，获取实体预测结果；
将满足预测阈值的所述实体预测结果作为实体识别结果；
向所述用户终端输出所述实体识别结果。

2.如权利要求1所述的命名实体识别方法，其特征在于，所述对所述原始文本进行预处理操作，获取标注数据的步骤，具体包括如下步骤：
读取疾病字典库，基于最大匹配规则在所述疾病字典库中获取与所述原始文本相对应的实体数据；
基于预设的标注规则对所述实体数据进行标注操作，获得所述标注数据。

3.如权利要求2所述的命名实体识别方法，其特征在于，所述预设的标注规则包括：
实体的起始位置标识为B；
实体的中间位置标识为M；
实体的结束位置标识为E；
单个组成的实体标识为S；
其他标识为0。

4.如权利要求1所述的命名实体识别方法，其特征在于，所述将所述标注数据输入至预设的实体预测模型，获取实体预测结果的步骤，具体包括如下步骤：
读取系统数据库，在所述系统数据库中获取训练文本；
基于所述最大匹配规则在所述疾病字典库中获取与所述训练文本相对应的训练实体数据；
对所述训练实体数据进行所述预处理操作，获取训练标注数据；
获取与所述训练标注数据相对应的特征数据；
将所述特征数据导入条件随机场模型进行预测模型训练；
将训练后的所述条件随机场模型作为所述预设的实体预测模型。

5.如权利要求4所述的命名实体识别方法，其特征在于，所述将所述特征数据导入条件随机场模型进行预测模型训练的步骤，具体包括如下步骤：
获取与所述特征数据相对应的转移特征函数：
λjtj(s，i，li，li-1)；
其中，s为要标注疾病实体的句子；i表示句子s中第i个位置；li表示要评分的标注序列给第i个单词标注的标签；li-1表示要评分的标注序列给第i-1个单词标注的标签；λ表示特征函数的权重系数；
获取与所述特征数据相对应的状态特征函数：
ukgk(s，i，li)；
其中，s为要标注疾病实体的句子；i表示句子s中第i个位置；li表示要评分的标注序列...

【专利技术属性】
技术研发人员：孙安国，
申请(专利权)人：平安医疗健康管理股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人