【技术实现步骤摘要】
一种面向科学文献知识实体的无监督识别方法及系统
[0001]本专利技术涉及知识实体识别
,具体是一种面向科学文献知识实体的无监督识别方法及系统。
技术介绍
[0002]科学文献中的知识实体是指专业文献中能表达一个关键知识点的术语实体,蕴含着丰富的科学知识。近年来,科学文献中知识实体的识别与抽取受到广泛关注,与该主题相关的会议相继召开,如“科学文献中知识实体提取和评估研讨会”、“科学文本自然语言处理研讨会”等,旨在探讨如何准确、全面地从科学文本中识别和抽取知识实体,这对特定科学领域知识体系的构建具有重要意义。
[0003]目前对于知识实体及其类别的识别与抽取相关研究中,主流方法主要包括:基于人工抽取的方法、基于字典和规则的方法、基于传统机器学习的方法和基于深度学习的方法。其中较好的研究工作是在有监督或半监督条件下进行,这需要一个大量的高质量的标注数据作为语料基础,然而特定科学领域往往缺乏这样的标注数据作为支撑,需要人工介入完成数据标注工作。又由于知识实体类型的划分因领域不同而没有固定的标准,通常可分为方法类、工具类、理论类、资源类等实体类别,导致非领域专家无法进行语料标注工作,大大提高了时间和人力资源成本。
[0004]目前无监督的知识实体识别方法还处于探索阶段,虽然效果上并不优于有监督学习的方法,但可避免人工的标注工作。有研究工作通过全词遮盖模型实现了电力领域的无监督命名实体识别,它的基本思想原理是利用公开的结构化数据(电力检修手册)构建一个实体及类别代表词集合来作用指导依据,同时利用全词遮盖技 ...
【技术保护点】
【技术特征摘要】
1.一种面向科学文献知识实体的无监督识别方法,其特征在于,利用无标注的科学文献文本数据对全词遮盖模型进行预训练,通过结合对比学习和聚类的方法构建知识实体代表词及其类别的集合作为评判依据,然后利用预训练后的全词遮盖模型对科学文献文本中的词语进行预测,通过计算预测出的词语与代表词之间的相似度来判断科学文献文本中的词语是否为知识实体,并确定科学文献文本中的词语的类别。2.根据权利要求1所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,包括以下步骤:S1,预训练:对收集的无标注的科学文献文本数据进行处理得到全词遮盖模型的训练语料,并结合串频统计算法构建领域词典,然后将训练语料以领域词典为指导进行分词处理后输入全词遮盖模型对全词遮盖模型进行训练,使全词遮盖模型学习到所涉及科学领域的词语的上下文语义和语法特征;S2,知识实体类别代表词学习:将S1中结合领域词典分词后的训练语料输入词向量表示模型训练得到领域词典中词语的向量表示,再利用对比学习结构模型对词语的向量重新学习,然后通过聚类得到知识实体代表词及其类别的集合,作为识别流程中判断文本词语是否为知识实体的依据;S3,知识实体识别:对待识别的科学文献文本中的词语进行遮盖处理,利用已训练的全词遮盖模型对遮盖词语进行预测,然后计算所得到的预测词语与S2所构建的代表词集合中词语之间的相似度分值,以此判断遮盖词语是否为知识实体,并确定其类别。3.根据权利要求2所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S2包括以下步骤:S21,将分词处理后的训练语料输入词向量表示模型进行训练,并提取出领域词典中词语的词向量,对提取出的词向量进行两次数据增强,得到与原始词向量类别及语义特征相同但数值不同的两个新词向量,新词向量之间互为正类样本;S22,产生的两个新词向量与其他任一数据增强后的词向量均互为负例,记两次数据增强前有N个词向量,两次数据增强后的词向量空间中有2N个词向量,则这两个新词向量与2N
‑
2个其他词向量均互为负类样本;S23,将两次数据增强后的词向量经过对比学习结构模型重新学习并表征到新的向量空间中,在此空间中利用损失函数限定正类样本间的距离越来越近,负类样本间的距离越来越远,使得词向量在新表征空间中能尽量分散均匀分布;S24,对重新表征后的词向量进行聚类,聚类完成后计算簇中心与其他词语的语义相似度,并设定阈值,筛选出语义相似度大于所设阈值的实体词,同时结合各簇中具体的实体词确定该簇所代表的类别,从而得到所需知识实体代表词集合。4.根据权利要求3所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S23中,损失函数如下:;;
;其中,、、表示样本的编号;表示和所组成的样本对的损失;表示编号为的样本经过对比学习结构模型转换后的向量,表示编号为的样本经过对比学习结构模型转换后的向量,表示编号为的样本经过对比学习结构模型转换后的向量;表示两样本的相似度,采用余弦相似度计算;N表示数据增强前的样本总数;表示调节参数,取值为0或1,表示当时,取值为1,否则为0;表示温度参数,用于控制样本分布的均匀程度;表示最终的损失函数。5.根据权利要求4所述的一种面向科学文献知识实体的无监督识别方法,其特征在于,步骤S24中,采用K
‑
means算法对重新表征后的词向量进行聚类,包括以下步骤:S241,在对比学习后重新表征的词向量空间中选定K个词作为初始簇中心;S242,计算词向量空间中其他所有词向量与各簇中心的距离,词向量到簇中心的距离越近,则认为该词向量对应的样本词属于该簇类别的概率越大,然后将每个样本词划分给距离最近的簇;S243,计算完向量空间所有样本词后,计算每个簇所有样本词的均值向量,并将每个簇所有样本词的均值向量作为新的簇中心,更新原来的簇中心;其中,所述样本词的均值向量计算公式为:;式中,;其中,表示样本词的均值向量,表示某一个簇,表示簇里的某一向量,表示簇的样本词...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。