一种基于混合神经网络的事件抽取方法技术

技术编号：35187682 阅读：15 留言：0更新日期：2022-10-12 18:00

本发明专利技术公开了一种基于混合神经网络的事件抽取方法，具体涉及自然语言文本处理技术领域，包括步骤一：对原始文本进行数据预处理，并对原始文本进行分句，得到事件句，再对事件句进行分词、命名体识别，并将事件句序列转换为词向量的形式；步骤二：将以词向量表示的事件句序列传入到双向长短时记忆网络，即（前向和后向两个子LSTM网络），再利用BERT模型来捕捉字级别的语义特征。本发明专利技术利用BERT模型来解决一词多义的问题，且充分考虑了卷积神经网络有效提取文本局部特征与BILSTM网络提取文本全局特征的优势，以及文本在上下文语义中的信息，有效提取了文本的特征。模糊上下文语义的情况被解决，提高了事件抽取的效果。提高了事件抽取的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合神经网络的事件抽取方法

[0001]本专利技术涉及自然语言文本处理
，更具体地说，本专利技术涉及一种基于混合神经网络的事件抽取方法。

技术介绍

[0002]随着医疗大数据的不断普及和电子病历的不断进步，越来越多的医院开始使用电子病历记录患者病情，这导致医疗保健中的数据生成率越来越高。中国病历中包含的知识和发现受到了广泛关注，但大量的电子病历对医学信息的整理提出了挑战；目前，文本信息挖掘已经成为热门技术和需求热点。在这种现象下，事件提取(EE)已成为医学诊断中正确、快速收集患者信息的核心，为医学研究事业开辟了新的前景。事件提取是自然语言处理的一项基本任务。其目的是从无序信息中提取用户感兴趣的事件，并以有序的形式呈现给用户。
[0003]医院的信息化系统发展迅速，出现了大量的电子病历，如何对这些电子病历进行结构化处理研究成了亟待研究的问题；
[0004]目前，数据集数据结构复杂且多样，而在中文病历文本挖掘和利用方面，以往的研究大都缺乏对医学文本信息的全局特征和局部特征的协同考虑。特征的捕捉次数不够，事件提取的效果不太好，故基于上述问题，为此我们设计这样一种基于混合神经网络的事件抽取方法，来解决上述问题。
[0005]在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]为了克服现有技术的上述缺陷，本专利技术的实施例提供一种基于混合神经网络的事件抽取方法，本专利技术所...

【技术保护点】

【技术特征摘要】
1.一种基于混合神经网络的事件抽取方法，其特征在于，包括如下步骤：步骤一：对原始文本进行数据预处理，并对原始文本进行分句，得到事件句，再对事件句进行分词、命名体识别，并将事件句序列转换为词向量的形式；步骤二：将以词向量表示的事件句序列传入到双向长短时记忆网络，即(前向和后向两个子LSTM网络)，再利用BERT模型来捕捉字级别的语义特征，并将其转换成高维的动态字向量；步骤三：将步骤二中BERT输出生成的动态字向量表示输入至BILSTM网络，以获取语义信息，再输入至CNN网络进行上下文学习，以获取全局特征和局部特征；步骤四：利用softmax作为分类器来对每个候选触发词进行分类，判断该事件所属类型。步骤五：对BILSTM网络和CNN网络上下文学习得到的测试数据进行事件的预测及提取。2.根据权利要求1所述的一种基于混合神经网络的事件抽取方法，其特征在于：所述步骤一中在得到事件句后根据标注的事件信息，将事件句进行序列标注，触发词根据其类型进行标注，非触发词标注为无类别，得到事件句序列，并将事件句序列以词向量的形式进行表述。3.根据权利要求1所述的一种基于混合神经网络的事件抽取方法，其特征在于：所述步骤二BERT层中，在Embedding过程...

【专利技术属性】
技术研发人员：张锋，程振宁，陈婕卿，曾可，姜会珍，杨鲤银，
申请(专利权)人：北京安妮福克斯信息咨询有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人