【技术实现步骤摘要】
关键字提取模型的构建方法、装置及存储介质
[0001]本专利技术涉及文本处理
,尤其涉及一种关键字提取模型的构建方法、装置及存储介质。
技术介绍
[0002]在这个信息爆炸的时代,从海量的文本数据中挖掘出有价值的关键信息是文本研究领域的基础性工作。挖掘有价值的关键信息最重要的方法就是关键字的提取,而进行关键字提取的重要工具就是关键字提取模型。
[0003]现有技术中,在采用训练好的关键字提取模型对文本数据进行关键字提取时,通常是先利用神经网络对该文本数据进行序列标注,得到标注结果,然后利用条件随机场模型(conditional random field,CRF)中的特征函数对标注结果进行约束。CRF中的特征函数包括的限定特征是在训练该关键字提取模型时人工定义的。当训练关键字提取模型采用的语料数据较为复杂时,由于复杂语料数据中存在难以察觉到的潜在限定特征,且人们对复杂语料数据的分析能力相对有限,因此人工无法全面定义所有的特征函数,导致利用该关键字提取模型提取的关键字不够准确。
技术实现思路
[0004]本专利技术提供一种关键字提取模型的构建方法、装置及存储介质,解决了由于关键字提取模型的CRF中的特征函数难以定义,导致利用该关键字提取模型提取的关键字的准确性较低的问题。
[0005]为达到上述目的,本专利技术采用如下技术方案:
[0006]第一方面,本专利技术提供一种关键字提取模型的构建方法,该方法包括:
[0007]获取语料数据、第一标注结果和第二标注结果,所述第 ...
【技术保护点】
【技术特征摘要】
1.一种关键字提取模型的构建方法,其特征在于,包括:获取语料数据、第一标注结果和第二标注结果,所述第一标注结果包括所述语料数据中的每个词的真实标签,所述真实标签用于指示所述词是否是关键字,所述第二标注结果包括多个窗口,每个窗口包括所述语料数据中的一个词的真实标签,以及所述一个词之后的(M
‑
1)个词的真实标签,M为大于1的整数,每个窗口包括M个真实标签;根据每个词和神经网络模型,确定每个词对应的第一词向量,所述第一词向量用于指示对应的词的上下文信息;将每个词对应的第一词向量输入全连接分类层,得到每个词对应的隐状态向量,所述隐状态向量用于指示对应的词的预测标签;根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,所述第一结果包括每个词对应的概率值大于预设概率值的预测标签;根据每个词对应的隐状态向量和卷积神经网络模型,得到所述卷积神经网络模型的卷积层的第二结果,所述第二结果包括多个约束规则,每个约束规则为所述语料数据的连续M个词的M个预测标签之间的约束规则;根据所述第二标注结果和所述第二结果,对目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,所述目标网络模型包括所述神经网络模型、所述全连接分类层、所述标注分类层和所述卷积神经网络模型;根据所述第一标注结果和所述第一结果,对所述目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛;根据收敛后的神经网络模型、全连接分类层、标注分类层得到所述关键字提取模型。2.根据权利要求1所述的关键字提取模型的构建方法,其特征在于,所述根据所述第一标注结果和所述第一结果,对所述目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,包括:采用预设的交叉熵损失函数,对所述第一标注结果和所述第一结果进行计算,得到第一损失值;当所述第一损失值大于预设阈值时,根据所述第一损失值和反向传播算法,计算所述目标网络模型的每个模型中的参数的梯度值;根据所述目标网络模型的每个模型中的参数的梯度值,以及随机梯度下降法对每个模型中的参数进行优化,并利用优化后的目标网络模型重新计算第一损失值,直至重新计算的第一损失值小于所述预设阈值。3.根据权利要求1或2所述的关键字提取模型的构建方法,其特征在于,所述根据所述第二标注结果和所述第二结果,对目标网络模型进行迭代优化,直至所述目标网络模型的每个模型收敛,包括:采用预设的平方损失函数,对所述第二标注结果和所述第二结果进行计算,得到第二损失值;当所述第二损失值大于预设阈值时,根据所述第二损失值和反向传播算法,计算所述目标网络模型的每个模型中的参数的梯度值;根据所述目标网络模型的每个模型中的参数的梯度值,以及随机梯度下降法对每个模型中的参数进行优化,并利用优化后的目标网络模型重新计算第二损失值,直至重新计算
的第二损失值小于所述预设阈值。4.根据权利要求1或2所述的关键字提取模型的构建方法,其特征在于,所述根据每个词和神经网络模型,确定每个词对应的第一词向量,包括:对所述语料数据进行向量初始化,得到每个词的第二词向量;将每个词的第二词向量输入所述神经网络模型中,得到每个词对应的第一词向量。5.根据权利要求1或2所述的关键字提取模型的构建方法,其特征在于,所述根据每个词对应的隐状态向量、全连接神经网络模型构成的标注分类层,以及归一化函数,得到第一结果,包括:将每个词对应的隐状态向量输入所述标注分...
【专利技术属性】
技术研发人员:王恩强,黄路明,
申请(专利权)人:深圳零时科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。