一种应用于制造业科学技术文档的命名实体识别模型制造技术

技术编号:33438008 阅读:14 留言:0更新日期:2022-05-19 00:26
本发明专利技术公开了一种应用于制造业科学技术文档的命名实体识别模型,其网络结构包括词嵌入层SciBERT,其用于将输入的词转换为固定长度的向量;BiLSTM层,其利用文本序列的上下文信息挖掘隐藏特征,其用于编码文本;注意力层,其用于降低实体内部不相关修饰词的权重,界定实体的边界,避免重要实体抽取的遗漏;CRF层,其作为网络结构的输出层,用于避免文本序列中的实体被错误标注。本发明专利技术的命名实体识别模型能从文本中提取信息和生成知识,能解析制造领域中的产品设计文本数据、工程测试文本数据、供应商数据数据、维护记录数据和产品使用数据等各种与制造科学技术相当的文档,能为企业实现各种数据资产互连提供技术基础,是促进企业的数字化转型的关键。的数字化转型的关键。的数字化转型的关键。

【技术实现步骤摘要】
一种应用于制造业科学技术文档的命名实体识别模型


[0001]本专利技术涉及自然语言处理
,尤其涉及到一种应用于制造业科学技术文档的命名实体识别模型。

技术介绍

[0002]随着与制造业相关的科技文献和互联网上可用的数字资源数量呈指数级增长,从制造科学技术文档中搜索和提取有价值的信息具有挑战性。现有的命名实体识别模型在材料科学、生物医学、化学科学、网络安全、维护实践和取证科学等特定领域均有相关研究和应用,但针对制造科学技术文档,研究使用命名实体识别模型并抽取其中有价值的信息尚处于技术语言处理研究和应用的萌芽阶段。
[0003]现有其他领域的命名实体识别模型的缺陷如下:
[0004]1)现有的标准命名实体识别模型无法识别特定领域的术语和概念。
[0005]2)由于不同领域技术文档具有不同的特点,因此针对特定领域开发的命名实体识别模型无法移植到制造业领域。
[0006]3)现有技术中心缺乏利用已构建的制造业领域的命名实体识别模型对制造科学技术文档进行自动分类的研究。

技术实现思路

[0007]本专利技术的目的是提供一种应用于制造业科学技术文档的命名实体识别模型,其从制造科学技术文档中抽取信息,并利用这些信息对制造科学技术文档按不同制造主题分类,组合深度学习模型、注意力机制、预训练模型和条件随机场等技术,构建命名实体识别模型,该模型能从制造科学技术文档中抽取关键的制造概念和实体,能为专注于制造的研究人员、年轻工程师和非技术专业人员提供快速搜索与制造相关的特定信息。
>[0008]本专利技术的上述技术目的是通过以下技术方案实现的:
[0009]一种应用于制造业科学技术文档的命名实体识别模型,包括如下步骤:
[0010]I.数据收集
[0011]选取现有目标文本,构成训练命名实体识别模型的原始语料库;
[0012]II.数据预处理
[0013]去除原始语料库中的标点和停用词,执行词形还原,形成语料库对应的词典;人工定义若干种制造文本类别;并为词典中的每一个词分配一个制造文本类别标签;采用定制化的词表提取算法,用BIOES格式自动标注原始语料库;
[0014]III.命名实体识别模型的网络结构
[0015]1)词嵌入层SciBERT,其用于将输入的词转换为固定长度的向量;
[0016]2)位于词嵌入层SciBERT之上的BiLSTM层,其利用文本序列的上下文信息挖掘隐藏特征,其用于编码文本;
[0017]3)位于BiLSTM层之上的注意力层,其用于降低实体内部不相关修饰词的权重,界
定实体的边界,避免重要实体抽取的遗漏;
[0018]4)位于注意力层之上的CRF层,其作为网络结构的输出层,用于避免文本序列中的实体被错误标注;
[0019]IV.命名实体识别模型的训练
[0020]把第I步得到的原始语料库按70:20:10的比例划分,分别得到训练集、验证集和测试集;命名实体识别模型需要训练的参数包括SciBERT词嵌入参数、BiLSTM的权重、注意力机制的权重、转移矩阵A和矩阵E;采用后向传播算法更新每一次训练的参数,每一次训练使用学习率为0.01的随机梯度下降算法SGD和值为5.0的梯度裁剪;用维度为100的单层前向LSTM和后向LSTM实现BiLSTM;网络的失活率DropOut设置为0.5;共执行20次试验,每一次试验执行100个epoch,每一个epoch执行500次iteration,Batch size的大小为256;
[0021]V.模型预测
[0022]用第IV步训练好的命名实体识别模型对已准备好的测试集进行命名实体标注;
[0023]VI.主题识别
[0024]通过使用已训练好的命名实体识别模型寻找重点命名实体;其方法是:查找给定的段落文本中出现的命名实体的数量;若两个或多个实体的数量相等,将优先考虑段落中第一个识别的实体。
[0025]进一步的,所述BiLSTM层利用文本序列的上下文信息挖掘隐藏特征的过程为:BiLSTM层计算每一个单词t处句子左边的上下文表示以及句子右边的上下文表示然后连接左边和右边的上下文表示得到表示单词t处的上下文信息。
[0026]进一步的,所述注意力层的表示公式参见式(1)

式(3);
[0027][0028]score
ki
=v
T
tanh(Wh
k
+Uh
i
+b)
ꢀꢀ
(2)
[0029][0030]其中,α
ki
是结点k和结点i之间的注意力分布,score
ki
是结点k和结点i之间的注意力打分函数;v、W和U是权重矩阵,h
k
是BiLSTM右边的上下文表示h
i
是BiLSTM左边的上下文表示C是注意力编码。
[0031]进一步的,所述CRF层的原理如下:
[0032]设X={x1,x2,

,x
n
‑1,x
n
}是输入的句子向量,注意力机制学得的特征向量为E={v1,v2,

,v
n
‑1,v
n
},n是句子中词的个数;对一个预测序列注意力机制学得的特征向量Y={y1,y2,

,y
n
},则预测序列的得分计算公式可用公式(4)表示;
[0033][0034]其中,A是转移矩阵,表示从标签y
i
转移到标签y
j
的得分;表示第i个词是标签y
i
的得分;对于一个序列Y,在所有可能的标签序列上的softmax产生的一个概率如
公式(5)所示;
[0035][0036]命名实体识别模型训练时用公式(6)最大化正确标签序列;
[0037][0038]其中,Y
X
表示句子X的所有可能的标签序列,解码时可获得得分最大的输出序列为最优的Y
*
就是从文本中自动标注得到的命名实体。
[0039]综上所述,本专利技术具有以下有益效果:
[0040]本专利技术在分析制造科学技术文档特征的基础上,有针对性的选用不同的自然语言处理技术,采用层次的方法构建了一种能实现命名实体识别的神经网络模型。
[0041]与现在的命名实体识别模型相比较,两者的显著差异在于3个方面:
[0042]1)现有的标准命名实体识别模型无法识别制造领域的术语和概念;
[0043]2)现有特定领域的命名实体识别模型尚未针对制造科学技术文本中使用的单词/短语的语料库进行测试;
[0044]3)个别现有的用于制造业领域的命名实体识别模型并未检测应用于制造业文本的分类效果。
[0045]本专利技术的命名实体识别模型能从文本中提取信息和生成知识。因此,本专利技术能解析制造本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种应用于制造业科学技术文档的命名实体识别模型,其特征在于,包括如下步骤:I.数据收集选取现有目标文本,构成训练命名实体识别模型的原始语料库;II.数据预处理去除原始语料库中的标点和停用词,执行词形还原,形成语料库对应的词典;人工定义若干种制造文本类别;并为词典中的每一个词分配一个制造文本类别标签;采用定制化的词表提取算法,用BIOES格式自动标注原始语料库;III.命名实体识别模型的网络结构1)词嵌入层SciBERT,其用于将输入的词转换为固定长度的向量;2)位于词嵌入层SciBERT之上的BiLSTM层,其利用文本序列的上下文信息挖掘隐藏特征,其用于编码文本;3)位于BiLSTM层之上的注意力层,其用于降低实体内部不相关修饰词的权重,界定实体的边界,避免重要实体抽取的遗漏;4)位于注意力层之上的CRF层,其作为网络结构的输出层,用于避免文本序列中的实体被错误标注;IV.命名实体识别模型的训练把第I步得到的原始语料库按70:20:10的比例划分,分别得到训练集、验证集和测试集;命名实体识别模型需要训练的参数包括SciBERT词嵌入参数、BiLSTM的权重、注意力机制的权重、转移矩阵A和矩阵E;采用后向传播算法更新每一次训练的参数,每一次训练使用学习率为0.01的随机梯度下降算法SGD和值为5.0的梯度裁剪;用维度为100的单层前向LSTM和后向LSTM实现BiLSTM;网络的失活率DropOut设置为0.5;共执行20次试验,每一次试验执行100个epoch,每一个epoch执行500次iteration,Batch size的大小为256;V.模型预测用第IV步训练好的命名实体识别模型对已准备好的测试集进行命名实体标注;VI.主题识别通过使用已训练好的命名实体识别模型寻找重点命名实体;其方法是:查找给定的段落文本中出现的命名实体的数量;若两个或多个实体的数量相等,将优先考虑段落中第一个识别的实体。2.根据权利要求1所述的应用于制造业科学技术文档的命名实体识别模型,其特征在于,所述BiLSTM层利用文本序列的上下文信息挖掘隐藏特征的过程为:BiLSTM层计算每一个单词t处句子左边的上下文表示以及句子右边的上下文表...

【专利技术属性】
技术研发人员:王明浩
申请(专利权)人:中云开源数据技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1