基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品技术

技术编号:36745416 阅读:8 留言:0更新日期:2023-03-04 10:27
基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品,属于数据识别技术领域,解决用于专利关键信息识别的标注专利数据匮乏和准确性低问题。本发明专利技术的方法包括:将专利数据集划分成若干个小组;建立StructBERT模型,StructBERT模型利用最近邻分类模型获得专利数据集的标签概率分布;将标签概率作为CRF层的输入分数;将训练好的StructBERT模型作为自学习策略中的教师模型,利用教师模型为未标注数据生成软标签,获取自训练策略得到的标注数据;获取扩增数据集;获取学生模型;将扩展数据集作为专利数据集,训练自训练策略后的StructBERT模型;利用基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。本发明专利技术适用于对中文专利关键信息的识别。专利关键信息的识别。专利关键信息的识别。

【技术实现步骤摘要】
基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品


[0001]本申请涉及数据识别
,尤其涉及中文专利关键信息的识别。

技术介绍

[0002]专利关键信息抽取是从一篇专利文本中获取所解决的技术问题、使用的核心技术以及直接或间接产生的应用效果三部分专利关键信息。在分析一项专利时,这三部分可以概括为专利的重点。
[0003]命名实体识别任务旨在从非结构化文本中定位实体并分类为预先定义的实体类型的任务,例如人名、组织和位置等。
[0004]专利的这三种关键信息类型可以视为一种特殊的命名实体识别任务。因此,命名实体识别的各种技术和方法都可以考虑用于解决这一问题。
[0005]近年来,深度学习在NER领域取得了显著的成功,尤其是在诸如BERT和RoBERTa等自我监督的预训练语言模型(PLM)方面。最先进的(SoTA)NER模型通常使用PLM权重初始化,并通过标准的监督学习进行微调。尽管PLMs取得了巨大的成功,但它通常需要大量的领域标注语料才能发挥作用。然而,标注数据的代价是非常昂贵的,往往还需要丰富的领域知识和专家经验。

技术实现思路

[0006]本专利技术目的是为了解决现有用于专利关键信息识别的标注专利数据匮乏和准确性低问题,提供了基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品。
[0007]本专利技术是通过以下技术方案实现的,本专利技术一方面,提供一种基于StructBERT的中文专利关键信息识别方法,所述方法包括:
[0008]步骤1、将专利数据集划分成若干个小组,每个小组包含支持集和查询集两个部分,其中,支持集是标注的样本,用于训练模型,查询集是未含标注的样本,用于更新模型参数;
[0009]步骤2、建立StructBERT模型,所述StructBERT模型利用最近邻分类模型获得所述专利数据集的标签概率分布;
[0010]将所述标签概率作为CRF层的输入分数,所述CRF层的输出为预测序列的得分,其参数是标签转换矩阵;
[0011]步骤3、训练所述StructBERT模型;
[0012]步骤4、将所述训练好的StructBERT模型作为自学习策略中的教师模型,利用所述教师模型为未标注数据生成软标签,获取自训练策略得到的标注数据;
[0013]步骤5、利用所述专利数据集和所述自训练策略得到的标注数据,获取扩增数据集;
[0014]步骤6、将所述扩展数据集作为专利数据集,并利用步骤1至步骤3训练所述训练好的StructBERT模型,获取基于StructBERT的中文专利关键信息识别模型;
[0015]步骤7、利用所述基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。
[0016]进一步地,所述专利数据集包括三种类型实体:解决问题、技术手段和实施效果。
[0017]进一步地,所述专利数据集采用BIO标注方式进行标注。
[0018]进一步地,所述BIO标注方式具体为:
[0019]采用BIO标注将每个元素标注为“B

X”、“I

X”或者“O”,对于实体类型X,“B

X”表示该元素所在的片段属于X类型并且此元素在此片段的开头,“I

X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
[0020]进一步地,步骤2中,所述利用最近邻分类模型获得所述专利数据集的标签概率分布,包括:
[0021]通过编码器获得支持集以及查询集中每个词的上下文表示,对于查询集中每个词x∈Q,计算其上下文表示和支持集中所有词x

∈S的上下文表示之间的欧式距离,计算公式为:
[0022][0023]其中,d(f
θ
(x),f
θ
(x

))表示x与x

之间的欧式距离,f
θ
(x)和f
θ
(x

)表示x与x

所对应的向量。
[0024]进一步地,步骤2中的所述预测序列的得分的计算方法为:
[0025][0026]其中,s(X,y)为预测序列的得分,表示句子中第i单词对应y
i
标签的分数,y
i
表示句子中第i个单词的标签,y0和y
n
是句子的开始位置和结束位置标签,表示从标签y
i
到标签y
i+1
的转换分数。
[0027]进一步地,步骤3,具体包括:
[0028]利用对数概率训练所述StructBERT模型,当对数概率最大时,完成训练,所述对数概率为:
[0029][0030]其中,Y是标签序列。
[0031]第二方面,本专利技术提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种基于StructBERT的中文专利关键信息识别方法的步骤。
[0032]第三方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行如上文所述的一种基于StructBERT的中文专利关键信息识别方法。
[0033]第四方面,本专利技术提供一种计算机程序产品,所述计算机程序被处理器执行时实
现如上文所述的一种基于StructBERT的中文专利关键信息识别方法。
[0034]本专利技术的有益效果:
[0035]考虑到数据标注的代价,在小规模样本的条件下,本专利技术在基于度量学习的Few

shot Learning框架下,并设计实现了一种基于StructBERT模型,有效提升了专利命名实体识别的效果。
[0036]首先,本专利技术针对专利关键信息的多种表达形式,包括语序的多样性等,以导致识别不出或不准的问题,构建StructBERT模型对专利关键信息进行识别,可以提升预测识别的准确性;
[0037]其次,本专利技术利用自学习策略,基于初步训练好的StructBERT模型,对原始标注数据进行扩展,进而提高标注样本的数量,解决了小规模样本导致模型训练不足,以使得模型识别精度低的问题;
[0038]最后,扩展样本数据后,本专利技术再次利用该扩展后获取的大数量样本数据对StructBERT模型进行训练,以提高该模型的预测结果的准确性。
[0039]本专利技术适用于对中文专利关键信息的识别。
附图说明
[0040]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本专利技术方法的模型训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于StructBERT的中文专利关键信息识别方法,其特征在于,所述方法包括:步骤1、将专利数据集划分成若干个小组,每个小组包含支持集和查询集两个部分,其中,支持集是标注的样本,用于训练模型,查询集是未含标注的样本,用于更新模型参数;步骤2、建立StructBERT模型,所述StructBERT模型利用最近邻分类模型获得所述专利数据集的标签概率分布;将所述标签概率作为CRF层的输入分数,所述CRF层的输出为预测序列的得分,其参数是标签转换矩阵;步骤3、训练所述StructBERT模型;步骤4、将所述训练好的StructBERT模型作为自学习策略中的教师模型,利用所述教师模型为未标注数据生成软标签,获取自训练策略得到的标注数据;步骤5、利用所述专利数据集和所述自训练策略得到的标注数据,获取扩增数据集;步骤6、将所述扩展数据集作为专利数据集,并利用步骤1至步骤3训练所述训练好的StructBERT模型,获取基于StructBERT的中文专利关键信息识别模型;步骤7、利用所述基于StructBERT的中文专利关键信息识别模型对中文专利关键信息进行识别。2.根据权利要求1所述的一种基于StructBERT的中文专利关键信息识别方法,其特征在于,所述专利数据集包括三种类型实体:解决问题、技术手段和实施效果。3.根据权利要求1所述的一种基于StructBERT的中文专利关键信息识别方法,其特征在于,所述专利数据集采用BIO标注方式进行标注。4.根据权利要求3所述的一种基于StructBERT的中文专利关键信息识别方法,其特征在于,所述BIO标注方式具体为:采用BIO标注将每个元素标注为“B

X”、“I

X”或者“O”,对于实体类型X,“B

X”表示该元素所在的片段属于X类型并且此元素在此片段的开头,“I

X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O...

【专利技术属性】
技术研发人员:刘悦刘勐邱锐玲李响王家彬温强孙世琦
申请(专利权)人:无锡睿文科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1