本发明专利技术公开了一种双向栈式循环神经网络的医疗语义标注方法和系统,其处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。本发明专利技术提高了模型拟合复杂模式的能力,并能更好地建模跨不同时间步的模式,能解决中文医学文本的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。
A method and system of medical semantic annotation based on bi-directional trestle recurrent neural network
【技术实现步骤摘要】
一种双向栈式循环神经网络的医疗语义标注方法和系统
本专利技术涉及医疗领域,特别是涉及一种双向栈式循环神经网络的医疗语义标注方法和系统。
技术介绍
医疗文本数据以自然语言形式存在,其中含有的数据如病史、诊断、病程记录、检查结果等,常为长文本的形式。传统小样本医学研究中,医疗文本数据的抽取、标准化由人工实现。近年来随着数据挖掘技术迅速发展及其在医疗行业的广泛应用,医学研究对于样本量的需求越来越大。使用自然语言处理(NLP)技术进行医疗文本数据的结构化,为快速获取大样本的结构化医疗数据提供了可能。NLP属于人工智能的子领域,其核心目的是使得计算机能够理解和生成人类的自然语言,任务主要包括信息抽取、机器翻译、情感分析、摘要提取等,所用到的技术包括命名实体识别、语义消歧、指代消解、词性标注、结构分析等。命名实体指文本中具有特定意义或指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。医学命名实体指医学文本中的医学专有名词,医学命名实体识别指从非结构化的医学文本中抽取出业务需要的医学专有名词。因为医学领域命名体系复杂、缩略语规则多样化,医学命名实体具有下述三方面的问题:一,医学命名实体意义不明确,存在多词一意、一词多意的问题;二,部分医学命名实体是复合多词短语,需确定其在句子中的左右边界;三,部分医学命名实体具有命名方式过长、命名实体存在嵌套等特征。因为目前不存在完整的权威医学命名实体词典,无法简单地利用文本匹配算法实现医学命名实体识别。基于循环神经网络RNN和条件随机场CRF的方法中,循环神经网络(RNN)将句子中各个字的charembedding序列作为每个时间步的输入,得到隐状态序列,从而得到自动提取的句子特征。而后接入条件随机场(CRF)层来进行标注,模型在解码时使用动态规划的Viterbi算法来求解最优路径,从而完成中文医学文本进行语义角色标注的任务。由于医学文本中存在复合短语以及特有的医学名词,使用循环神经网络和条件随机场进行文本标注存在两点不足:一是在使用循环神经网络进行医学中文实体识别时,由于链式法则的原因,会出现累乘项,而医学中文实体的识别由于其特殊性,累乘项的数量会很多,因此会出现RNN梯度消失的问题,使得参数更新缓慢,甚至是停止更新,从而使训练失败。二是由于使用RNN进行实体识别时,只是从时间正序上进行实体识别,同时由于医学中文的特殊性(一词多义,多词一义),因此需要大量已标注训练语料才能达到训练目的;同时,对医学中的识别训练模型的复杂度要求高,对RNN的层数和复杂度也要求高。另一个方法是利用双向循环神经网络BRNN和条件随机场CRF实现中文文本的语义标注。双向循环神经网络BRNN的基本思想是提出每一个训练序列向前和向后分别是两个循环神经网络RNN,而且这两个都连接着一个输出层。这个结构提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息。对于数据的中文短语或词句,在每个输入的词或字,输入会同时提供给两个方向相反的RNN,输出由这两个单向RNN共同决定。因此,较传统RNN神经网络,BRNN能同时记录输入的t+1(未来时序)和t-1(过去时序)的关系,因此能更好的识别中文文本中的命名实体。使用双向循环神经网络BRNN和条件随机场CRF的方法存在三个缺点:一是双向循环神经网络BRNN的特征需有谓语动词作为输入,而原始医学文本大多是短语或词项,不一定能准确标注出谓语动词,因此对于医学文本段的标注存在限制,泛化能力弱。二是在医学命名实体中,存在大量复合型长短语,由于BRNN只记录了t+1与t-1的时序关系,对长程关系的识别能力比较弱,无法满足医学命名实体识别要求。三是部分医学命名实体具有命名方式过长、命名实体存在嵌套,使用BRNN无法很好的识别嵌套关系。
技术实现思路
有鉴于此,本专利技术提出一种双向栈式循环神经网络的医疗语义标注方法和系统,利用循环神经网络,采用合并递归模式,堆叠多个循环神经网络单元构建起一个栈式深层网络,其中双向循环神经网络构成一个单元,最终形成多组栈式堆叠单元,来解决中文医学文本中的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。为解决上述技术问题,本专利技术采用的一个技术方案是:提出一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:步骤一:获取医疗文本;步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。进一步的,所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。所述已初步处理的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词;所述初步的医学实体标识中,包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;所述已初步标注的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。进一步的,上述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。对应上述方法,所述双向栈式循环神经网络的医疗语义标注系统包括:输入单元,用于获取医疗文本;单词处理单元,用于将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;双词处理单元,用于将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;多词处理单元,用于将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;词性解码单元,用于将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;所述单词处理单元、双词处理单元以及多词处理单元中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。本专利技术的有益效果在于:提出了一种双向栈式循环神经网络的医疗语义标注方法和系统,利用循环神经网络,采用合并递归模式,堆叠多个循环神经网络单元构建起一个栈式深层网络,其中双向循环神经网络构成一个单元,最终形成多组栈式堆叠单元,最后通过序列标注单元进行标注,提高了模型拟合复杂模式的能力,并能够更好地建模跨不同时间步的模式,解决中文医学文本中的长句式中长程语义依赖的单词词性识别困难和语义角色标注困难问题。附图说明图1是本专利技术一种双向栈式循环神经网络的医疗语义标注系统的结构本文档来自技高网...
【技术保护点】
1.一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:/n步骤一:获取医疗文本;/n步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;/n步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;/n步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;/n步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;/n所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。/n
【技术特征摘要】
1.一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:
步骤一:获取医疗文本;
步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
2.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于:所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。
3.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于:
所述已初步处理的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词;
所述初步的医学实体标识中,包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;
所述已初步标注的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;
所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
4.如权利要求1-3任意一个所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于,所述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。
5.一种双向栈式循环...
【专利技术属性】
技术研发人员:易鹏,马勇,李爽,李万余,
申请(专利权)人:北京富通东方科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。