【技术实现步骤摘要】
一种双向栈式循环神经网络的医疗语义标注方法和系统
本专利技术涉及医疗领域,特别是涉及一种双向栈式循环神经网络的医疗语义标注方法和系统。
技术介绍
医疗文本数据以自然语言形式存在,其中含有的数据如病史、诊断、病程记录、检查结果等,常为长文本的形式。传统小样本医学研究中,医疗文本数据的抽取、标准化由人工实现。近年来随着数据挖掘技术迅速发展及其在医疗行业的广泛应用,医学研究对于样本量的需求越来越大。使用自然语言处理(NLP)技术进行医疗文本数据的结构化,为快速获取大样本的结构化医疗数据提供了可能。NLP属于人工智能的子领域,其核心目的是使得计算机能够理解和生成人类的自然语言,任务主要包括信息抽取、机器翻译、情感分析、摘要提取等,所用到的技术包括命名实体识别、语义消歧、指代消解、词性标注、结构分析等。命名实体指文本中具有特定意义或指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。医学命名实体指医学文本中的医学专有名词,医学命名实体识别指从非结构化的医学文本中抽取出业务需要的医学专有名词。因 ...
【技术保护点】
1.一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:/n步骤一:获取医疗文本;/n步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;/n步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;/n步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;/n步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;/n所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。/n
【技术特征摘要】
1.一种双向栈式循环神经网络的医疗语义标注方法,其特征在于包括以下步骤:
步骤一:获取医疗文本;
步骤二:将所述医疗文本进行初步拆分拼接,得到已初步处理的文本;
步骤三:将所述已初步处理的文本进行二次拆分拼接,将初步处理的实体词进行合并处理,形成初步的医学实体标识;
步骤四:将所述初步的医学实体标识进行整体合并标注,形成已初步标注的文本;
步骤五:将所述已初步标注的文本进行样本解码,并输出医疗文本的语义标注结果;
所述步骤二、步骤三以及步骤四的处理过程中分别至少包括一个双向循环神经网络,形成堆叠的双向栈式的循环神经网络结构。
2.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于:所述双向循环神经网络包括正向长短时序神经网络和一个反向长短时序神经网络。
3.如权利要求1所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于:
所述已初步处理的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词;
所述初步的医学实体标识中,包括所述医疗文本中所有的由单个词语组成的医学实体词和两个词语组成的医学实体词;
所述已初步标注的文本中,包括所述医疗文本中所有的由单个词语组成的医学实体词、两个词语组成的医学实体词和多个词语组成的医学实体词;
所述医疗文本的语义标注结果,标注出所述医学文本中的时间、疾病、治疗、症状等医学实体词的语义关系。
4.如权利要求1-3任意一个所述的一种双向栈式循环神经网络的医疗语义标注方法,其特征在于,所述步骤五至少使用条件随机场CRF或隐马尔科夫链HMM等序列标注模型来进行标注。
5.一种双向栈式循环...
【专利技术属性】
技术研发人员:易鹏,马勇,李爽,李万余,
申请(专利权)人:北京富通东方科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。