当前位置: 首页 > 专利查询>船舶信息研究中心中国船舶集团有限公司第七一四研究所专利>正文

适用于少样本场景的国防科技文本结构化语义分析方法技术

技术编号：37347011 阅读：10 留言：0更新日期：2023-04-22 21:41

本申请提出了一种适用于少样本场景的国防科技文本结构化语义分析方法，包括：获取国防科技文本数据；对国防科技文本数据进行自动模版匹配，并通过人工对匹配到的模版进行标注过滤，获得训练数据；采用对比学习的方式使用训练数据对BERT对进行无监督语义训练，得到对比学习模型；使用训练数据对对比学习模型和命名实体模型进行半监督学习联合训练，得到训练好的命名实体模型；获取待预测的未标注国防科技文本，并将国防科技文本数据输入命名实体识别模型中，输出BIOS标签作为识别结果。采用上述方案的本发明专利技术能够在少样本场景下能够充分利用未标注数据提供的信息，提高国防科技文本结构化语义分析的准确率。结构化语义分析的准确率。结构化语义分析的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
适用于少样本场景的国防科技文本结构化语义分析方法

[0001]本申请涉及半监督学习
，尤其涉及适用于少样本场景的国防科技文本结构化语义分析方法和装置。

技术介绍

[0002]国防科技文本结构化语义分析是实现国防科技预警中语义理解和语义搜索的基础，如果能够准确的识别出国防科技文本中的研究任务和解决方法可以实现精准的智能检索。目前关于国防科技文本结构化语义分析的研究相对较少，业界暂不存在相关大规模标注数据。

技术实现思路

[0003]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004]为此，本申请的第一个目的在于提出一种适用于少样本场景的国防科技文本结构化语义分析方法，解决了现有方法缺少标注数据造成训练的识别模型准确率较低的技术问题，实现了在少样本场景下充分利用未标注数据提供的信息，提高国防科技文本结构化语义分析的准确率。
[0005]本申请的第二个目的在于提出一种适用于少样本场景的国防科技文本结构化语义分析装置。
[0006]为达上述目的，本申请第一方面实施例提出了一种适用于少样本场景的国防科技文本结构化语义分析方法，包括：获取国防科技文本数据，其中，国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本；对国防科技文本数据进行自动模版匹配，并通过人工对匹配到的模版进行标注过滤，获得训练数据；采用对比学习的方式使用训练数据对BERT对进行无监督语义训练，得到对比学习模型，其中，对比学习模型包括文本生成模块、BERT、相似度判断模块；使用训练数据...

【技术保护点】

【技术特征摘要】
1.一种适用于少样本场景的国防科技文本结构化语义分析方法，其特征在于，包括以下步骤：获取国防科技文本数据，其中，所述国防科技文本数据包括已有标注标签的国防科技文本和未标注国防科技文本；对所述国防科技文本数据进行自动模版匹配，并通过人工对匹配到的模版进行标注过滤，获得训练数据；采用对比学习的方式使用所述训练数据对BERT对进行无监督语义训练，得到对比学习模型，其中，所述对比学习模型包括文本生成模块、BERT、相似度判断模块；使用所述训练数据对所述对比学习模型和所述命名实体模型进行半监督学习联合训练，得到训练好的命名实体模型；获取待预测的未标注国防科技文本，并将所述国防科技文本数据输入命名实体识别模型中，输出BIOS标签作为识别结果。2.如权利要求1所述的方法，其特征在于，获取所述国防科技文本数据后，还包括使用分词工具对所述国防科技文本数据进行数据预处理，其中，所述数据预处理包括：利用正则表达式去除所述国防科技文本数据中存在的HTML标签、乱码以及无意义符号；按照标点符号将所述国防科技文本数据分成若干句子，并使用分词技术将每个句子切分成若干词汇。3.如权利要求1所述的方法，其特征在于，所述对所述文本数据进行自动模版匹配，包括：通过固定大小的滑动窗口遍历所有句子，并统计每个词的词频以及词的共现频率；在遍历的同时根据句子窗口内的词建立有向无环图；根据所述词频和所述共现频率计算点互信息，并基于所述点互信息和设定的阈值将所述有向无环图切割成若干子图，对切割后的每个子图利用基于动态规划的集束算法找出若干个最优的路径作为句子模板；其中，所述点互信息表示为：其中，x和y为滑动窗口内的任意两个词，p(x)、p(y)分别表示词x、y出现的概率，p(x,y)表示词x和词y共同出现的概率。4.如权利要求3所述的方法，其特征在于，所述通过人工对匹配到的模版进行标注过滤，获得训练数据，包括：按照实体类型对所述句子模版进行人工标注；根据标注的句子模版，遍历所述国防科技文本数据，通过所述句子模版和规则联合的方式标注出实体的类型，获得所述训练数据。5.如权利要求1所述的方法，其特征在于，所述采用对比学习的方式使用所述训练数据对BERT对进行无监督语义训练，得到对比学习模型，包括：通过所述文本生成模块对所述训练数据进行文本处理，得到训练文本，其中，所述训练
文本包括原始文本、正样本、负样本，所述正样本由原始文本进行数据增强后得到，所述负样本由随机采样获得；使用共享参数的BERT对所述训练文本进行编码，通过所述相似度判断模块计算BERT编码的误差，并用梯度下降算法优化BERT的参数。6.如权利要求5所述的方法，其特征在于，所述BERT编码的误差表示为：其中，q表示原始文本，k
i
表示数据增强后的正...

【专利技术属性】
技术研发人员：姜鹏，仇瑜，褚晓泉，史腾飞，郭晨曦，
申请(专利权)人：船舶信息研究中心中国船舶集团有限公司第七一四研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人