一种医疗命名实体一词多标的识别方法、装置及电子设备制造方法及图纸

技术编号:29490629 阅读:31 留言:0更新日期:2021-07-30 19:02
本公开涉及一种医疗命名实体一词多标的识别方法、装置及电子设备,涉及深度学习技术领域,包括:对待识别文本进行细粒度分词;对所述细粒度分词进行信息融合,得到编码词向量;根据所述编码词向量输出所述待识别文本对应的识别信息。本发明专利技术可以使中文细粒度词拥有融合上下文信息的作用,能够解决医疗领域命名实体的一词多标问题。

【技术实现步骤摘要】
一种医疗命名实体一词多标的识别方法、装置及电子设备
本公开实施例涉及深度学习
,更具体地,涉及一种医疗命名实体一词多标的识别方法、装置及电子设备。
技术介绍
序列标记问题作为NLP的基本问题,其标签预测的结果对于后续任务有着至关重要的影响。此外,自然语言处理中的许多任务也均能转化为序列标记问题,如命名实体识别、分词、词性标注等。但是在医疗领域的命名实体的识别过程中常会遇到一词多标的问题,如葡萄糖这个词,在“患者低血糖注射葡萄糖溶液治疗”中是和“溶液”一起标为药品,在“患者查血:葡萄糖5.73mmol/L”中则单独标为检查指标,“患者运动后自饮葡萄糖水”中则不标,词的语义并没有明显变化但在不同的语境下对应的标签是不同的。虽然现有解决序列标记问题的LSTM模型可以一定程度上的处理一字多义,但是LSTM模型是以字级别进行编码,在编码过程中的最小编码单元为一个字,是对字级别进行词向量编码,而对于医疗领域常见的词级别的一词多标无法很好地解决。
技术实现思路
本公开实施例的一个目的是提供一种医疗命名实体一词多标的识本文档来自技高网...

【技术保护点】
1.一种医疗命名实体一词多标的识别方法,其特征在于,包括:/n对待识别文本进行细粒度分词;/n对所述细粒度分词进行信息融合,得到编码词向量;/n根据所述编码词向量输出所述待识别文本对应的识别信息。/n

【技术特征摘要】
1.一种医疗命名实体一词多标的识别方法,其特征在于,包括:
对待识别文本进行细粒度分词;
对所述细粒度分词进行信息融合,得到编码词向量;
根据所述编码词向量输出所述待识别文本对应的识别信息。


2.根据权利要求1所述的一种医疗命名实体一词多标的识别方法,其特征在于,所述对待识别文本进行细粒度分词,包括:
利用二元语法模型以及命名实体词库对所述待识别文本进行细粒度分词,将所述待识别文本拆分为多个单元词组;
其中,每一单元词组最少包含一个字。


3.根据权利要求2所述的一种医疗命名实体一词多标的识别方法,其特征在于,所述命名实体词库包括医疗专业知识库。


4.根据权利要求1所述的一种医疗命名实体一词多标的识别方法,其特征在于,对所述细粒度分词进行信息融合,得到编码词向量,包括:
利用字符级语言模型将每一所述细粒度分词映射到向量空间,得到对应于每个细粒度分词的编码词向量。


5.根据权利要求4所述的一种医疗命名实体一词多标的识别方法,其特征在于,对所述细粒度分词进行信息融合,得到编码词...

【专利技术属性】
技术研发人员:张瀚之刘升平梁家恩
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1