关键字提取模型的构建方法、装置及存储介质制造方法及图纸

技术编号:35076627 阅读:15 留言:0更新日期:2022-09-28 11:42
本发明专利技术公开一种关键字提取模型的构建方法、装置及存储介质,包括:获取语料数据、第一标注结果和第二标注结果;根据每个词和神经网络模型确定第一词向量;将第一词向量输入全连接分类层得到隐状态向量;根据隐状态向量、标注分类层及归一化函数,得到第一结果;根据隐状态向量和卷积神经网络模型得到卷积神经网络模型的卷积层的第二结果;根据第二标注结果和第二结果,对目标网络模型进行迭代优化直至整个模型收敛;根据第一标注结果和第一结果,对目标网络模型进行迭代优化直至整个模型收敛;根据收敛后的神经网络模型、全连接分类层、标注分类层得到关键字提取模型。通过机器自行学习特征限定规则,节省了人力,提高了关键字提取模型的准确性。提取模型的准确性。提取模型的准确性。

【技术实现步骤摘要】
关键字提取模型的构建方法、装置及存储介质


[0001]本专利技术涉及文本处理
,尤其涉及一种关键字提取模型的构建方法、装置及存储介质。

技术介绍

[0002]在这个信息爆炸的时代,从海量的文本数据中挖掘出有价值的关键信息是文本研究领域的基础性工作。挖掘有价值的关键信息最重要的方法就是关键字的提取,而进行关键字提取的重要工具就是关键字提取模型。
[0003]现有技术中,在采用训练好的关键字提取模型对文本数据进行关键字提取时,通常是先利用神经网络对该文本数据进行序列标注,得到标注结果,然后利用条件随机场模型(conditional random field,CRF)中的特征函数对标注结果进行约束。CRF中的特征函数包括的限定特征是在训练该关键字提取模型时人工定义的。当训练关键字提取模型采用的语料数据较为复杂时,由于复杂语料数据中存在难以察觉到的潜在限定特征,且人们对复杂语料数据的分析能力相对有限,因此人工无法全面定义所有的特征函数,导致利用该关键字提取模型提取的关键字不够准确。

技术实现思路

[0004]本专利技术提供一种关键字提取模型的构建方法、装置及存储介质,解决了由于关键字提取模型的CRF中的特征函数难以定义,导致利用该关键字提取模型提取的关键字的准确性较低的问题。
[0005]为达到上述目的,本专利技术采用如下技术方案:
[0006]第一方面,本专利技术提供一种关键字提取模型的构建方法,该方法包括:
[0007]获取语料数据、第一标注结果和第二标注结果,所述第一标注结果包括所述语料数据中的每个词的真实标签,所述真实标签用于指示所述词是否是关键字,所述第二标注结果包括多个窗口,每个窗口包括所述语料数据中的一个词的真实标签,以及所述一个词之后的(M

1)个词的真实标签,M为大于1的整数,每个窗口包括M个真实标签;
[0008]根据每个词和神经网络模型,确定每个词对应的第一词向量,所述第一词向量用于指示对应的词的上下文信息;
[0009]将每个词对应的第一词向量输入全连接分类层,得到每个词对应的隐状态向量,所述隐状态向量用于指示对应的词的预测标签;
[0010]根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,所述第一结果包括每个词对应的概率值大于预设概率值的预测标签;
[0011]根据每个词对应的隐状态向量和卷积神经网络模型,得到所述卷积神经网络模型的卷积层的第二结果,所述第二结果包括多个约束规则,每个约束规则为所述语料数据的连续M个词的M个预测标签之间的约束规则;
[0012]根据所述第二标注结果和所述第二结果,对目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,所述目标网络模型包括所述神经网络模型、所述全连接分类层、所述标注分类层和所述卷积神经网络模型;
[0013]根据所述第一标注结果和所述第一结果,对所述目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛;
[0014]根据收敛后的神经网络模型、全连接分类层、标注分类层得到所述关键字提取模型。
[0015]结合第一方面,在一种可能的实现方式中,所述根据所述第一标注结果和所述第一结果,对所述目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,包括:
[0016]采用预设的交叉熵损失函数,对所述第一标注结果和所述第一结果进行计算,得到第一损失值;
[0017]当所述第一损失值大于预设阈值时,根据所述第一损失值和反向传播算法,计算所述目标网络模型的每个模型中的参数的梯度值;
[0018]根据所述目标网络模型的每个模型中的参数的梯度值,以及随机梯度下降法对每个模型中的参数进行优化,并利用优化后的目标网络模型重新计算第一损失值,直至重新计算的第一损失值小于所述预设阈值。
[0019]结合第一方面,在一种可能的实现方式中,所述根据所述第二标注结果和所述第二结果,对目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,包括:
[0020]采用预设的平方损失函数,对所述第二标注结果和所述第二结果进行计算,得到第二损失值;
[0021]当所述第二损失值大于预设阈值时,根据所述第二损失值和反向传播算法,计算所述目标网络模型的每个模型中的参数的梯度值;
[0022]根据所述目标网络模型的每个模型中的参数的梯度值,以及随机梯度下降法对每个模型中的参数进行优化,并利用优化后的目标网络模型重新计算第二损失值,直至重新计算的第二损失值小于所述预设阈值。
[0023]结合第一方面,在一种可能的实现方式中,所述根据每个词和神经网络模型,确定每个词对应的第一词向量,包括:
[0024]对所述语料数据进行向量初始化,得到每个词的第二词向量;
[0025]将每个词的第二词向量输入所述神经网络模型中,得到每个词对应的第一词向量。
[0026]结合第一方面,在一种可能的实现方式中,所述根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,包括:
[0027]将每个词对应的隐状态向量输入所述标注分类层,得到第三结果,所述第三结果包括每个词对应的多个预测标签中各预测标签的概率值;
[0028]采用所述归一化函数对所述第三结果进行归一化处理,得到所述第一结果。
[0029]结合第一方面,在一种可能的实现方式中,在得到所述关键字提取模型之后,还包括:
[0030]获取待抽取文本;
[0031]对所述待抽取文本进行向量初始化,得到所述待抽取文本中的每个词的词向量;
[0032]将所述待抽取文本中的每个词的词向量输入所述关键字提取模型,得到所述待抽取文本的目标标注结果,所述目标标注结果中包括所述待抽取文本中的关键词。
[0033]第二方面,本专利技术提供一种关键字提取模型的构建装置,该装置包括:
[0034]第一获取模块,用于获取语料数据、第一标注结果和第二标注结果,所述第一标注结果包括所述语料数据中的每个词的真实标签,所述真实标签用于指示所述词是否是关键字,所述第二标注结果包括多个窗口,每个窗口包括所述语料数据中的一个词的真实标签,以及所述一个词之后的(M

1)个词的真实标签,M为大于1的整数,每个窗口包括M个真实标签;
[0035]第一确定模块,用于根据每个词和神经网络模型,确定每个词对应的第一词向量,所述第一词向量用于指示对应的词的上下文信息;
[0036]第二确定模块,用于将每个词对应的第一词向量输入全连接分类层,得到每个词对应的隐状态向量,所述隐状态向量用于指示对应的词的预测标签;
[0037]第三确定模块,用于根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,所述第一结果包括每个词对应的概率值大于预设概率值的预测标签;
[0038]第四确定模块,用于根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键字提取模型的构建方法,其特征在于,包括:获取语料数据、第一标注结果和第二标注结果,所述第一标注结果包括所述语料数据中的每个词的真实标签,所述真实标签用于指示所述词是否是关键字,所述第二标注结果包括多个窗口,每个窗口包括所述语料数据中的一个词的真实标签,以及所述一个词之后的(M

1)个词的真实标签,M为大于1的整数,每个窗口包括M个真实标签;根据每个词和神经网络模型,确定每个词对应的第一词向量,所述第一词向量用于指示对应的词的上下文信息;将每个词对应的第一词向量输入全连接分类层,得到每个词对应的隐状态向量,所述隐状态向量用于指示对应的词的预测标签;根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,所述第一结果包括每个词对应的概率值大于预设概率值的预测标签;根据每个词对应的隐状态向量和卷积神经网络模型,得到所述卷积神经网络模型的卷积层的第二结果,所述第二结果包括多个约束规则,每个约束规则为所述语料数据的连续M个词的M个预测标签之间的约束规则;根据所述第二标注结果和所述第二结果,对目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,所述目标网络模型包括所述神经网络模型、所述全连接分类层、所述标注分类层和所述卷积神经网络模型;根据所述第一标注结果和所述第一结果,对所述目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛;根据收敛后的神经网络模型、全连接分类层、标注分类层得到所述关键字提取模型。2.根据权利要求1所述的关键字提取模型的构建方法,其特征在于,所述根据所述第一标注结果和所述第一结果,对所述目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,包括:采用预设的交叉熵损失函数,对所述第一标注结果和所述第一结果进行计算,得到第一损失值;当所述第一损失值大于预设阈值时,根据所述第一损失值和反向传播算法,计算所述目标网络模型的每个模型中的参数的梯度值;根据所述目标网络模型的每个模型中的参数的梯度值,以及随机梯度下降法对每个模型中的参数进行优化,并利用优化后的目标网络模型重新计算第一损失值,直至重新计算的第一损失值小于所述预设阈值。3.根据权利要求1或2所述的关键字提取模型的构建方法,其特征在于,所述根据所述第二标注结果和所述第二结果,对目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,包括:采用预设的平方损失函数,对所述第二标注结果和所述第二结果进行计算,得到第二损失值;当所述第二损失值大于预设阈值时,根据所述第二损失值和反向传播算法,计算所述目标网络模型的每个模型中的参数的梯度值;根据所述目标网络模型的每个模型中的参数的梯度值,以及随机梯度下降法对每个模型中的参数进行优化,并利用优化后的目标网络模型重新计算第二损失值,直至重新计算
的第二损失值小于所述预设阈值。4.根据权利要求1或2所述的关键字提取模型的构建方法,其特征在于,所述根据每个词和神经网络模型,确定每个词对应的第一词向量,包括:对所述语料数据进行向量初始化,得到每个词的第二词向量;将每个词的第二词向量输入所述神经网络模型中,得到每个词对应的第一词向量。5.根据权利要求1或2所述的关键字提取模型的构建方法,其特征在于,所述根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,包括:将每个词对应的隐状态向量输入所述标注分...

【专利技术属性】
技术研发人员:王恩强黄路明
申请(专利权)人:深圳零时科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1