一种面向科学文献知识实体的无监督识别方法及系统技术方案

技术编号:37456446 阅读:34 留言:0更新日期:2023-05-06 09:28
本发明专利技术涉及知识实体识别技术领域,公开了一种面向科学文献知识实体的无监督识别方法及系统,该方法,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。本发明专利技术解决了现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。题。题。

【技术实现步骤摘要】
一种面向科学文献知识实体的无监督识别方法及系统


[0001]本专利技术涉及知识实体识别
,具体是一种面向科学文献知识实体的无监督识别方法及系统。

技术介绍

[0002]科学文献中的知识实体是指专业文献中能表达一个关键知识点的术语实体,蕴含着丰富的科学知识。近年来,科学文献中知识实体的识别与抽取受到广泛关注,与该主题相关的会议相继召开,如“科学文献中知识实体提取和评估研讨会”、“科学文本自然语言处理研讨会”等,旨在探讨如何准确、全面地从科学文本中识别和抽取知识实体,这对特定科学领域知识体系的构建具有重要意义。
[0003]目前对于知识实体及其类别的识别与抽取相关研究中,主流方法主要包括:基于人工抽取的方法、基于字典和规则的方法、基于传统机器学习的方法和基于深度学习的方法。其中较好的研究工作是在有监督或半监督条件下进行,这需要一个大量的高质量的标注数据作为语料基础,然而特定科学领域往往缺乏这样的标注数据作为支撑,需要人工介入完成数据标注工作。又由于知识实体类型的划分因领域不同而没有固定的标准,通常可分为方法类、工具类、理论类、资源类等实体类别,导致非领域专家无法进行语料标注工作,大大提高了时间和人力资源成本。
[0004]目前无监督的知识实体识别方法还处于探索阶段,虽然效果上并不优于有监督学习的方法,但可避免人工的标注工作。有研究工作通过全词遮盖模型实现了电力领域的无监督命名实体识别,它的基本思想原理是利用公开的结构化数据(电力检修手册)构建一个实体及类别代表词集合来作用指导依据,同时利用全词遮盖技术对文本中的词语进行预测,再通过计算文本词语与代表词之间的相似度,进而完成命名实体识别及类型判断。该方法中作为指导依据的代表词集合的构建需要公开的结构化的数据支持,但对于特定科学领域缺乏这类公开数据集,只有无标注的文本数据资源,因此无法直接迁移到科学文献的知识实体识别中来。

技术实现思路

[0005]为克服现有技术的不足,本专利技术提供了一种面向科学文献知识实体的无监督识别方法及系统,解决现有技术存在的针对知识实体的识别时难以识别缺乏公开数据集的科技文本数据资源等问题。
[0006]本专利技术解决上述问题所采用的技术方案是:一种面向科学文献知识实体的无监督识别方法,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。
[0007]作为一种优选的技术方案,包括以下步骤:S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。
[0008]作为一种优选的技术方案,步骤S2包括以下步骤:S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N

2个其他词向量均互为负类样本;S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。
[0009]作为一种优选的技术方案,步骤S23中,损失函数如下:;;;其中,、、表示样本的编号;表示和所组成的样本对的损失;表示编号为的样本经过对比学习结构模型转换后的向量,表示编号为的样本经过对比学习结构模型转换后的向量,表示编号为的样本经过对比学习结构模型转换后的向量;表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;表示调节参数,取值为0或1,表示当时,取值为1,否则为0;表示温度参数,用于控制样本分布的均匀程度;表示最终的损失函数。
[0010]作为一种优选的技术方案,步骤S24中,采用K

means算法对重新表征后的词向量进行聚类,包括以下步骤:S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:;式中,;其中,表示样本词的均值向量,表示某一个簇,表示簇里的某一向量,表示簇的样本词个数;S244,重复步骤S241至步骤S243,直到簇中心不再变化,训练完成。
[0011]作为一种优选的技术方案,簇数量K的设定方案如下:假设已经通过聚类算法将待分类的数据进行了聚类,并最终得到了K个簇;对于每个簇中的每个样本词,分别计算其轮廓系数,对每个样本词计算以下指标::样本点到与其属于同一个簇的其他样本点的距离的平均值;值越小,说明该样本点属于该类别的可能性越大;:样本点到其他簇中的所有样本的平均距离的最小值,的计算公式为:;则样本点的轮廓系数为:;其中,表示样本点的轮廓系数;所有样本点的轮廓系数的平均值为该聚类结果平均轮廓系数,;簇内样本的距离越近,簇间样本距离越远,平均轮廓系数越大,聚类效果越好。
[0012]作为一种优选的技术方案,S3包括以下步骤:S31,对待检测文本进行分词,识别出文本中的名词并进行遮盖;S32,利用S14中所得到的全词遮盖模型预测被遮盖词可能的输出词;S33,结合S2中所得到的知识实体代表词集合,计算所遮盖词归属于类别中的得分;S34,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向科学文献知识实体的无监督识别方法,其特征在于,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。2.根据权利要求1所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,包括以下步骤:S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。3.根据权利要求2所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S2包括以下步骤:S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N

2个其他词向量均互为负类样本;S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。4.根据权利要求3所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S23中,损失函数如下:;;
;其中,、、表示样本的编号;表示和所组成的样本对的损失;表示编号为的样本经过对比学习结构模型转换后的向量,表示编号为的样本经过对比学习结构模型转换后的向量,表示编号为的样本经过对比学习结构模型转换后的向量;表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;表示调节参数,取值为0或1,表示当时,取值为1,否则为0;表示温度参数,用于控制样本分布的均匀程度;表示最终的损失函数。5.根据权利要求4所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S24中,采用K

means算法对重新表征后的词向量进行聚类,包括以下步骤:S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:;式中,;其中,表示样本词的均值向量,表示某一个簇,表示簇里的某一向量,表示簇的样本词...

【专利技术属性】
技术研发人员:张晖兰浩宇杨春明陈洋
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1