用于生物数学实体抽取的双通道神经网络及特征识别方法技术

技术编号：39043819 阅读：11 留言：0更新日期：2023-10-10 11:56

本发明专利技术涉及文本数据处理领域，公开了用于生物数学实体抽取的双通道神经网络及特征识别方法，包括如下步骤：获取生物数学文本并进行实体标注，将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集；将词嵌入存储在的词典中，得到生物数学文本序列所对应的词向量；使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码，得到生物数学文本序列中的字符特征向量；采用权重分配方式将特征学习层获取的特征向量进行组合，得到融合特征向量；采用条件随机场模型对融合特征向量进行解码处理，实现数学命名实体抽取。通过本发明专利技术，可以实现生物数学实体的抽取。生物数学实体的抽取。生物数学实体的抽取。

全部详细技术资料下载

【技术实现步骤摘要】
用于生物数学实体抽取的双通道神经网络及特征识别方法

[0001]本专利技术涉及文本数据处理领域，具体是用于生物数学实体抽取的双通道神经网络及特征识别方法。

技术介绍

[0002]实体抽取（Entity Extraction, EE）是自然语言处理技术中的关键任务，旨在抽取出具有特殊意义的事物。最初的实体抽取是面向通识领域，抽取对象包括人物名称、地点名称、机构名称、时间等标注性内容。伴随着研究的推进，实体范围逐渐转向特定领域，抽取对象也更专注于专业术语。
[0003]近年来，随着智能制造在生物医药行业的发展，生物医药产品在生产与管理中涉及数理统计、数值计算、仿真模拟等，对这些数学语言、数学方法的应用需要智能的获取和实体抽取，是实现生物医药制造的智能计算与智能管控的重要基础。当前，大部分实体抽取模型都是利用单神经网络进行特征提取，而不同神经网络对特征的提取能力存在差异，导致无法正确抽取出特征不明显的实体。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足，提供用于生物数学实体抽取的双通道神经网络及特征识别方法，包括如下步骤：步骤一，获取生物数学文本，采用BIO标注方法对获取的生物数学文本进行实体标注，将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集；步骤二，采用pytorch word embedding将词嵌入存储在的词典中，建立每个字与向量之间的映射关系，得到生物数学文本序列所对应的词向量；步骤三，使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词...

【技术保护点】

【技术特征摘要】
1.用于生物数学实体抽取的双通道神经网络及特征识别方法，其特征在于，包括如下步骤：步骤一，获取生物数学文本，采用BIO标注方法对获取的生物数学文本进行实体标注，将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集；步骤二，采用pytorch word embedding将词嵌入存储在的词典中，建立每个字与向量之间的映射关系，得到生物数学文本序列所对应的词向量；步骤三，使用迭代膨胀卷积神经网络和双向长短期神经网络对词嵌入层输出的词向量进行编码，得到生物数学文本序列中的字符特征向量和；步骤四，采用权重分配方式将特征学习层获取的特征向量进行组合，得到融合特征向量；步骤五，采用条件随机场模型对融合特征向量进行解码处理，得到融合特征向量中每字符对应所有标签的概率，然后通过维特比算法求解最大概率，获取每个字符的预测标签，实现数学命名实体抽取。2.根据权利要求1所述的用于生物数学实体抽取的双通道神经网络及特征识别方法，其特征在于，所述的获取生物数学文本，采用BIO标注方法对获取的生物数学文本进行实体标注，将标注完成的生物数学文本按照设定的比例划分为训练集、测试集和验证集，包括：步骤S1：从生产实际应用或网络资源库中获取生物数学知识，形成原始文本数据；步骤S2：对获取的原始数据进行清洗、筛选和整理，仅保留关于数学知识的中文文本信息；步骤S3：将生物数学实体划分为普通实体和基本实体，将具有相同性质的普通实体归属于同一个基本实体类别；步骤S4：将所有的标注完成的生物数学文本数据按照设定的划分比例，划分为训练集、测试集和验证集，其中训练集用于拟合双通道特征学习模型；验证集用于调整模型的超参数和对模型的泛化能力进行初步评估；测试集用来评估模型最终的泛化能力。3.根据权利要求2所述的用于生物数学实体抽取的双通道神经网络及特征识别方法，其特征在于，所述的采用pytorch word embedding将词嵌入存储在的词典中，建立每个字与向量之间的映射关系，得到生物数学文本序列所对应的词向量，包括：训练集中的每个句子以字为基本单位采用换行符进行分词，分词后得到序列表示，作为双通道特征模型的输入；采用Pytorch word embedding方法，对一个句子序列中所有出现的字符建立字典表，对输入序列中每个字查询字典表中对应的位置索引号，其中；再建立映射得到该句子序列的词向量。
4....

【专利技术属性】
技术研发人员：杨春，史雪乜，陈跃辉，李俊谚，
申请(专利权)人：佰墨思成都数字技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人