适用于少样本场景的国防科技文本结构化语义分析方法技术

技术编号:37347011 阅读:10 留言:0更新日期:2023-04-22 21:41
本申请提出了一种适用于少样本场景的国防科技文本结构化语义分析方法,包括:获取国防科技文本数据;对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型;使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。采用上述方案的本发明专利技术能够在少样本场景下能够充分利用未标注数据提供的信息,提高国防科技文本结构化语义分析的准确率。结构化语义分析的准确率。结构化语义分析的准确率。

【技术实现步骤摘要】
适用于少样本场景的国防科技文本结构化语义分析方法


[0001]本申请涉及半监督学习
,尤其涉及适用于少样本场景的国防科技文本结构化语义分析方法和装置。

技术介绍

[0002]国防科技文本结构化语义分析是实现国防科技预警中语义理解和语义搜索的基础,如果能够准确的识别出国防科技文本中的研究任务和解决方法可以实现精准的智能检索。目前关于国防科技文本结构化语义分析的研究相对较少,业界暂不存在相关大规模标注数据。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此,本申请的第一个目的在于提出一种适用于少样本场景的国防科技文本结构化语义分析方法,解决了现有方法缺少标注数据造成训练的识别模型准确率较低的技术问题,实现了在少样本场景下充分利用未标注数据提供的信息,提高国防科技文本结构化语义分析的准确率。
[0005]本申请的第二个目的在于提出一种适用于少样本场景的国防科技文本结构化语义分析装置。
[0006]为达上述目的,本申请第一方面实施例提出了一种适用于少样本场景的国防科技文本结构化语义分析方法,包括:获取国防科技文本数据,其中,国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型,其中,对比学习模型包括文本生成模块、BERT、相似度判断模块;使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。
[0007]本申请实施例的适用于少样本场景的国防科技文本结构化语义分析方法,通过自动模版匹配的方法获取种子数据,然后通过人工进行矫正获得训练数据,最后通过半监督学习方法联合训练对比学习和命名实体识别模型,从而实现少样本场景下论文国防科技文本结构化语义分析。
[0008]可选地,在本申请的一个实施例中,获取国防科技文本数据后,还包括使用分词工具对国防科技文本数据进行数据预处理,其中,数据预处理包括:
[0009]利用正则表达式去除国防科技文本数据中存在的HTML标签、乱码以及无意义符号;
[0010]按照标点符号将国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。
[0011]可选地,在本申请的一个实施例中,对文本数据进行自动模版匹配,包括:
[0012]通过固定大小的滑动窗口遍历所有句子,并统计每个词的词频以及词的共现频率;
[0013]在遍历的同时根据句子窗口内的词建立有向无环图;
[0014]根据词频和共现频率计算点互信息,并基于点互信息和设定的阈值将有向无环图切割成若干子图,对切割后的每个子图利用基于动态规划的集束算法找出若干个最优的路径作为句子模板;
[0015]其中,点互信息表示为:
[0016][0017]其中,x和y为滑动窗口内的任意两个词,p(x)、p(y)分别表示词x、y出现的概率,p(x,y)表示词x和词y共同出现的概率。
[0018]可选地,在本申请的一个实施例中,通过人工对匹配到的模版进行标注过滤,获得训练数据,包括:
[0019]按照实体类型对句子模版进行人工标注;
[0020]根据标注的句子模版,遍历国防科技文本数据,通过句子模版和规则联合的方式标注出实体的类型,获得训练数据。
[0021]可选地,在本申请的一个实施例中,采用对比学习的方式使用训练数据对BERT对进行无监督语义训练,得到对比学习模型,包括:
[0022]通过文本生成模块对训练数据进行文本处理,得到训练文本,其中,训练文本包括原始文本、正样本、负样本,正样本由原始文本进行数据增强后得到,负样本由随机采样获得;
[0023]使用共享参数的BERT对训练文本进行编码,通过相似度判断模块计算BERT编码的误差,并用梯度下降算法优化BERT的参数。
[0024]可选地,在本申请的一个实施例中,BERT编码的误差表示为:
[0025][0026]其中,q表示原始文本,k
i
表示数据增强后的正负样本,k
+
仅表示正样本,τ表示温度系数。
[0027]可选地,在本申请的一个实施例中,使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型,包括:
[0028]使用命名实体模型对训练数据进行编码预测,输出BIOS标签的后验概率,通过计算预测的路径和真实路径的差距得到监督学习损失值;
[0029]使用对比学习模型对训练数据进行编码,并利用对比学习算法通过无监督学习方法计算得到无监督学习损失值;
[0030]根据监督学习损失值和无监督学习损失值计算得到半监督学习损失值,并利用梯度下降算法优化对比学习模型和命名实体模型参数。
[0031]可选地,在本申请的一个实施例中,监督学习损失值表示为:
[0032][0033]其中,s
real
表示真实路径,s
j
表示预测的第j条路径,
[0034]无监督学习损失值表示为:
[0035][0036]其中,q表示原始文本,k
i
表示数据增强后的正负样本,k
+
仅表示正样本,τ表示温度系数,
[0037]半监督学习损失值表示为:
[0038]m
θ
inJ=J
sup
+λ*J
unsup
[0039]其中,J
sup
表示监督学习损失值,J
unsup
表示无监督学习损失值,λ表示比例系数,λ∈[0,1]。
[0040]为达上述目的,本专利技术第二方面实施例提出了一种适用于少样本场景的国防科技文本结构化语义分析装置,包括数据获取模块、训练数据生成模块、无监督学习训练模块、联合训练模块、预测模块,其中,
[0041]数据获取模块,用于获取国防科技文本数据,其中,国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;
[0042]训练数据生成模块,用于对国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;
[0043]无监督学习训练模块,用于采用对比学习的方式使用训练数据对BERT对进行无监督学习训练,得到对比学习模型,其中,对比学习模型包括文本生成模块、BERT、相似度判断模块;
[0044]联合训练模块,用于使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;
[0045]预测模块,用于获取待预测的未标注国防科技文本,并将国防科技文本数据输入命名实体识别模型中,输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于少样本场景的国防科技文本结构化语义分析方法,其特征在于,包括以下步骤:获取国防科技文本数据,其中,所述国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本;对所述国防科技文本数据进行自动模版匹配,并通过人工对匹配到的模版进行标注过滤,获得训练数据;采用对比学习的方式使用所述训练数据对BERT对进行无监督语义训练,得到对比学习模型,其中,所述对比学习模型包括文本生成模块、BERT、相似度判断模块;使用所述训练数据对所述对比学习模型和所述命名实体模型进行半监督学习联合训练,得到训练好的命名实体模型;获取待预测的未标注国防科技文本,并将所述国防科技文本数据输入命名实体识别模型中,输出BIOS标签作为识别结果。2.如权利要求1所述的方法,其特征在于,获取所述国防科技文本数据后,还包括使用分词工具对所述国防科技文本数据进行数据预处理,其中,所述数据预处理包括:利用正则表达式去除所述国防科技文本数据中存在的HTML标签、乱码以及无意义符号;按照标点符号将所述国防科技文本数据分成若干句子,并使用分词技术将每个句子切分成若干词汇。3.如权利要求1所述的方法,其特征在于,所述对所述文本数据进行自动模版匹配,包括:通过固定大小的滑动窗口遍历所有句子,并统计每个词的词频以及词的共现频率;在遍历的同时根据句子窗口内的词建立有向无环图;根据所述词频和所述共现频率计算点互信息,并基于所述点互信息和设定的阈值将所述有向无环图切割成若干子图,对切割后的每个子图利用基于动态规划的集束算法找出若干个最优的路径作为句子模板;其中,所述点互信息表示为:其中,x和y为滑动窗口内的任意两个词,p(x)、p(y)分别表示词x、y出现的概率,p(x,y)表示词x和词y共同出现的概率。4.如权利要求3所述的方法,其特征在于,所述通过人工对匹配到的模版进行标注过滤,获得训练数据,包括:按照实体类型对所述句子模版进行人工标注;根据标注的句子模版,遍历所述国防科技文本数据,通过所述句子模版和规则联合的方式标注出实体的类型,获得所述训练数据。5.如权利要求1所述的方法,其特征在于,所述采用对比学习的方式使用所述训练数据对BERT对进行无监督语义训练,得到对比学习模型,包括:通过所述文本生成模块对所述训练数据进行文本处理,得到训练文本,其中,所述训练
文本包括原始文本、正样本、负样本,所述正样本由原始文本进行数据增强后得到,所述负样本由随机采样获得;使用共享参数的BERT对所述训练文本进行编码,通过所述相似度判断模块计算BERT编码的误差,并用梯度下降算法优化BERT的参数。6.如权利要求5所述的方法,其特征在于,所述BERT编码的误差表示为:其中,q表示原始文本,k
i
表示数据增强后的正...

【专利技术属性】
技术研发人员:姜鹏仇瑜褚晓泉史腾飞郭晨曦
申请(专利权)人:船舶信息研究中心中国船舶集团有限公司第七一四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1