用于生物数学实体抽取的双通道神经网络及特征识别方法技术

技术编号:39043819 阅读:11 留言:0更新日期:2023-10-10 11:56
本发明专利技术涉及文本数据处理领域,公开了用于生物数学实体抽取的双通道神经网络及特征识别方法,包括如下步骤:获取生物数学文本并进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集;将词嵌入存储在的词典中,得到生物数学文本序列所对应的词向量;使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量;采用权重分配方式将特征学习层获取的特征向量进行组合,得到融合特征向量;采用条件随机场模型对融合特征向量进行解码处理,实现数学命名实体抽取。通过本发明专利技术,可以实现生物数学实体的抽取。生物数学实体的抽取。生物数学实体的抽取。

【技术实现步骤摘要】
用于生物数学实体抽取的双通道神经网络及特征识别方法


[0001]本专利技术涉及文本数据处理领域,具体是用于生物数学实体抽取的双通道神经网络及特征识别方法。

技术介绍

[0002]实体抽取(Entity Extraction, EE)是自然语言处理技术中的关键任务,旨在抽取出具有特殊意义的事物。最初的实体抽取是面向通识领域,抽取对象包括人物名称、地点名称、机构名称、时间等标注性内容。伴随着研究的推进,实体范围逐渐转向特定领域,抽取对象也更专注于专业术语。
[0003]近年来,随着智能制造在生物医药行业的发展,生物医药产品在生产与管理中涉及数理统计、数值计算、仿真模拟等,对这些数学语言、数学方法的应用需要智能的获取和实体抽取,是实现生物医药制造的智能计算与智能管控的重要基础。当前,大部分实体抽取模型都是利用单神经网络进行特征提取,而不同神经网络对特征的提取能力存在差异,导致无法正确抽取出特征不明显的实体。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供用于生物数学实体抽取的双通道神经网络及特征识别方法,包括如下步骤:步骤一,获取生物数学文本,采用BIO标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集;步骤二,采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量;步骤三,使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量和;步骤四,采用权重分配方式将特征学习层获取的特征向量进行组合,得到融合特征向量;步骤五,采用条件随机场模型对融合特征向量进行解码处理,得到融合特征向量中每字符对应所有标签的概率,然后通过维特比算法求解最大概率,获取每个字符的预测标签,实现数学命名实体抽取。
[0005]进一步的,所述的获取生物数学文本,采用BIO标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集,包括:步骤S1:从生产实际应用或网络资源库中获取生物数学知识,形成原始文本数据;
步骤S2:对获取的原始数据进行清洗、筛选和整理,仅保留关于数学知识的中文文本信息;步骤S3:将生物数学实体划分为普通实体和基本实体,将具有相同性质的普通实体归属于同一个基本实体类别;步骤S4:将所有的标注完成的生物数学文本数据按照设定的划分比例,划分为训练集、测试集和验证集,其中训练集用于拟合双通道特征学习模型;验证集用于调整模型的超参数和对模型的泛化能力进行初步评估;测试集用来评估模型最终的泛化能力。
[0006]进一步的,所述的采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量,包括:训练集中的每个句子以字为基本单位采用换行符进行分词,分词后得到序列表示,作为双通道特征模型的输入;采用Pytorch word embedding方法,对一个句子序列中所有出现的字符建立字典表,对输入序列中每个字查询字典表中对应的位置索引号,其中;再建立映射得到该句子序列的词向量。
[0007]进一步的,所述的使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量和,包括:建立IDCNN特征学习模型,初始化参数,包括word embedding层数、字典表D的大小、每个句子序列对应的位置检索号、滤波器,设置滤波器的大小为3,初始学习率为0.0005;计算四个膨胀宽度为1,1,2的三层卷积块的输出,采用如下公式:利用concat拼接方式获得IDCNN最终输出的特征向量,采用如下公式:其中表示大小为的滤波器;为膨胀因子,为激活该神经元的阈值,为每个字符的词向量表示,为词向量中的分量,表示其中一个字的向量xt;建立BiLSTM特征学习模型,初始化参数,包括word embedding层数、BiLSTM隐层数、实体类别标签词典大小、字符字典表的大小,设置学习率为0.01,定义前向和后向
LSTM神经单元的输出,采用如下公式:采用如下公式:采用如下公式:采用如下公式:采用如下公式:采用如下公式:再采用concat的拼接方式获得BiLSTM最终的输出特征矩阵;其中分别表示遗忘门、输入门、记忆单元和输出门;表示遗忘门、输入门、隐藏层单元和输出门的输入连接权值矩阵和反馈连接权值矩阵;b表示遗忘门、输入门、隐藏层单元和输出门的阈值;表示激活函数。
[0008]进一步的,所述的采用条件随机场模型对融合特征向量进行解码处理,得到融合特征向量中每字符对应所有标签的概率,然后通过维特比算法求解最大概率,获取每个字符的预测标签,实现数学命名实体抽取,包括:采用条件随机场模型进行序列标注,根据对序列的标注结果引入特殊的起点和终点状态标注和,定义每条标注路径的得分为上一时刻标签到该时刻标签的转移分数与该时刻对应标签的状态分数的和,采用如下公式:其中表示到的转移得分,表示第个字符标注为得分;定义序列中每个字符的条件概率为,表示真实路径在所有可能出现路径中出现的概率,采用如下公式:
定义损失函数为负对数似然函数,采用如下公式:通过不断迭代优化,使损失函数达到极小值,此时真实路径在所有可能路径中出现的概率最大,得到模型的参数;通过维特比解码,预测出所有可能标签序列中概率最大的标签序列:。
[0009]本专利技术的有益效果是:本专利技术结合了多种神经网络的特征提取优势,增强了模型的特征提取能力,从而提高了生物数学实体抽取的精准率。
附图说明
[0010]图1为用于生物数学实体抽取的双通道神经网络及特征识别方法的原理示意图;图2为数据流程示意图;图3为双通道神经网络模型的结构示意图;图4为标注案例示意图;图5为词嵌入案例示意图;图6为IDCNN

BiLSTM

CRF模型训练流程示意图。
具体实施方式
[0011]下面结合附图进一步详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于以下所述。
[0012]为了使本专利技术的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术,即所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0013]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,包括如下步骤:步骤一,获取生物数学文本,采用BIO标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集;步骤二,采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量;步骤三,使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码,得到生物数学文本序列中的字符特征向量和;步骤四,采用权重分配方式将特征学习层获取的特征向量进行组合,得到融合特征向量;步骤五,采用条件随机场模型对融合特征向量进行解码处理,得到融合特征向量中每字符对应所有标签的概率,然后通过维特比算法求解最大概率,获取每个字符的预测标签,实现数学命名实体抽取。2.根据权利要求1所述的用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,所述的获取生物数学文本,采用BIO标注方法对获取的生物数学文本进行实体标注,将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集,包括:步骤S1:从生产实际应用或网络资源库中获取生物数学知识,形成原始文本数据;步骤S2:对获取的原始数据进行清洗、筛选和整理,仅保留关于数学知识的中文文本信息;步骤S3:将生物数学实体划分为普通实体和基本实体,将具有相同性质的普通实体归属于同一个基本实体类别;步骤S4:将所有的标注完成的生物数学文本数据按照设定的划分比例,划分为训练集、测试集和验证集,其中训练集用于拟合双通道特征学习模型;验证集用于调整模型的超参数和对模型的泛化能力进行初步评估;测试集用来评估模型最终的泛化能力。3.根据权利要求2所述的用于生物数学实体抽取的双通道神经网络及特征识别方法,其特征在于,所述的采用pytorch word embedding将词嵌入存储在的词典中,建立每个字与向量之间的映射关系,得到生物数学文本序列所对应的词向量,包括:训练集中的每个句子以字为基本单位采用换行符进行分词,分词后得到序列表示,作为双通道特征模型的输入;采用Pytorch word embedding方法,对一个句子序列中所有出现的字符建立字典表,对输入序列中每个字查询字典表中对应的位置索引号,其中;再建立映射得到该句子序列的词向量。
4....

【专利技术属性】
技术研发人员:杨春史雪乜陈跃辉李俊谚
申请(专利权)人:佰墨思成都数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1