基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品技术

技术编号：36745416 阅读：8 留言：0更新日期：2023-03-04 10:27

基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品，属于数据识别技术领域，解决用于专利关键信息识别的标注专利数据匮乏和准确性低问题。本发明专利技术的方法包括：将专利数据集划分成若干个小组；建立StructBERT模型，StructBERT模型利用最近邻分类模型获得专利数据集的标签概率分布；将标签概率作为CRF层的输入分数；将训练好的StructBERT模型作为自学习策略中的教师模型，利用教师模型为未标注数据生成软标签，获取自训练策略得到的标注数据；获取扩增数据集；获取学生模型；将扩展数据集作为专利数据集，训练自训练策略后的StructBERT模型；利用基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。本发明专利技术适用于对中文专利关键信息的识别。专利关键信息的识别。专利关键信息的识别。

全部详细技术资料下载

【技术实现步骤摘要】
基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品

[0001]本申请涉及数据识别
，尤其涉及中文专利关键信息的识别。

技术介绍

[0002]专利关键信息抽取是从一篇专利文本中获取所解决的技术问题、使用的核心技术以及直接或间接产生的应用效果三部分专利关键信息。在分析一项专利时，这三部分可以概括为专利的重点。
[0003]命名实体识别任务旨在从非结构化文本中定位实体并分类为预先定义的实体类型的任务，例如人名、组织和位置等。
[0004]专利的这三种关键信息类型可以视为一种特殊的命名实体识别任务。因此，命名实体识别的各种技术和方法都可以考虑用于解决这一问题。
[0005]近年来，深度学习在NER领域取得了显著的成功，尤其是在诸如BERT和RoBERTa等自我监督的预训练语言模型(PLM)方面。最先进的(SoTA)NER模型通常使用PLM权重初始化，并通过标准的监督学习进行微调。尽管PLMs取得了巨大的成功，但它通常需要大量的领域标注语料才能发挥作用。然而，标注数据的代价是非常昂贵的，往往还需要丰富的领域知识和专家经验。

技术实现思路

[0006]本专利技术目的是为了解决现有用于专利关键信息识别的标注专利数据匮乏和准确性低问题，提供了基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品。
[0007]本专利技术是通过以下技术方案实现的，本专利技术一方面，提供一种基于StructBERT的中文专利关键信息识别方...

【技术保护点】

【技术特征摘要】
1.一种基于StructBERT的中文专利关键信息识别方法，其特征在于，所述方法包括：步骤1、将专利数据集划分成若干个小组，每个小组包含支持集和查询集两个部分，其中，支持集是标注的样本，用于训练模型，查询集是未含标注的样本，用于更新模型参数；步骤2、建立StructBERT模型，所述StructBERT模型利用最近邻分类模型获得所述专利数据集的标签概率分布；将所述标签概率作为CRF层的输入分数，所述CRF层的输出为预测序列的得分，其参数是标签转换矩阵；步骤3、训练所述StructBERT模型；步骤4、将所述训练好的StructBERT模型作为自学习策略中的教师模型，利用所述教师模型为未标注数据生成软标签，获取自训练策略得到的标注数据；步骤5、利用所述专利数据集和所述自训练策略得到的标注数据，获取扩增数据集；步骤6、将所述扩展数据集作为专利数据集，并利用步骤1至步骤3训练所述训练好的StructBERT模型，获取基于StructBERT的中文专利关键信息识别模型；步骤7、利用所述基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。2.根据权利要求1所述的一种基于StructBERT的中文专利关键信息识别方法，其特征在于，所述专利数据集包括三种类型实体：解决问题、技术手段和实施效果。3.根据权利要求1所述的一种基于StructBERT的中文专利关键信息识别方法，其特征在于，所述专利数据集采用BIO标注方式进行标注。4.根据权利要求3所述的一种基于StructBERT的中文专利关键信息识别方法，其特征在于，所述BIO标注方式具体为：采用BIO标注将每个元素标注为“B
‑
X”、“I
‑
X”或者“O”，对于实体类型X，“B
‑
X”表示该元素所在的片段属于X类型并且此元素在此片段的开头，“I
‑
X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置，“O...

【专利技术属性】
技术研发人员：刘悦，刘勐，邱锐玲，李响，王家彬，温强，孙世琦，
申请(专利权)人：无锡睿文科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人