【技术实现步骤摘要】
实体识别方法、装置、电子设备及存储介质
[0001]本申请涉及实体识别
,尤其涉及一种实体识别方法、装置、电子设备及存储介质。
技术介绍
[0002]在近年来,随着网络和医疗信息技术的发展,互联网医疗逐渐兴起,医疗大数据也逐渐产生。而医疗大数据在医疗行业有着尤为重要的作用。对于医疗大数据的应用,医疗文本中医疗命名实体的识别为基础工作。
[0003]对于医疗文本的命名实体识别,通常采用有监督方法训练识别模型,将医疗文本作为一个序列,利用该识别模型来预测序列中每个字或词的标签,从而提取出文本中的实体。但是该方法往往需要大量有标注的数据才能获得较好的效果,例如基于条件随机场(CRF)的统计学习方案。在样本量较小时,训练出的模型准确率较低,从而影响医疗文本中的命名实体识别的准确率。
技术实现思路
[0004]基于上述现有技术的缺陷和不足,本申请提出一种实体识别方法、装置、电子设备及存储介质,能够提高医疗文本中的命名实体识别的准确率。
[0005]根据本申请实施例的第一方面,提供了一种实体识别方法 ...
【技术保护点】
【技术特征摘要】
1.一种实体识别方法,其特征在于,包括:将待识别文本输入到预先训练的实体识别模型中,得到所述待识别文本对应的实体标签;其中,所述实体识别模型至少通过将预先构建的实体识别规则嵌入与所述实体识别规则相匹配的第一训练样本,并利用嵌入所述实体识别规则后的所述第一训练样本进行实体识别训练得到,与所述实体识别规则相匹配的第一训练样本,包括能够通过所述实体识别规则识别样本中的实体的文本样本。2.根据权利要求1所述的方法,其特征在于,通过将预先构建的实体识别规则嵌入与所述实体识别规则相匹配的第一训练样本,并利用嵌入所述实体识别规则后的所述第一训练样本进行实体识别训练得到实体识别模型,包括:将预先构建的实体识别规则嵌入到与预先构建的实体识别规则相匹配的第一训练样本对应的样本特征中,得到所述第一训练样本对应的输入特征;将所述输入特征输入到神经网络中进行实体识别,得到所述第一训练样本对应的输出标签;根据利用所述实体识别规则确定的所述第一训练样本对应的样本标签和所述输出标签,对所述神经网络的网络参数进行调整,得到实体识别模型。3.根据权利要求2所述的方法,其特征在于,所述神经网络对所述第一训练样本对应的输入特征进行实体识别的步骤包括:对所述第一训练样本对应的输入特征进行编码操作,得到所述第一训练样本对应的编码特征;基于注意力机制,对第一训练样本中的每个字对应的编码特征结合第一训练样本中的其他字对应的编码特征,确定第一训练样本中的每个字对应的注意力编码特征;根据第一训练样本对应的注意力编码特征,预测所述第一训练样本对应的输出标签。4.根据权利要求2所述的方法,其特征在于,将预先构建的实体识别规则嵌入到与预先构建的实体识别规则相匹配的第一训练样本对应的样本特征中,得到所述第一训练样本对应的输入特征,包括:基于有限自动状态机的转换规则,对预先构建的实体识别规则进行规则表征,得到包含所述实体识别规则的规则特征;提取与所述实体识别规则相匹配的第一训练样本对应的样本特征;将所述规则特征与所述第一训练样本对应的样本特征融合,得到所述第一训练样本对应的输入特征。5.根据权利要求4所述...
【专利技术属性】
技术研发人员:肖飞,冯韬,易显维,胡加学,赵景鹤,贺志阳,鹿晓亮,魏思,胡国平,陈祖吉,
申请(专利权)人:讯飞医疗科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。