当前位置: 首页 > 专利查询>临沂大学专利>正文

一种基于BERT的自动分层树扩展方法技术

技术编号:34178144 阅读:16 留言:0更新日期:2022-07-17 12:25
本发明专利技术公开了一种基于BERT的自动分层树扩展方法,包括通过语料库抽取出实体集并生成实体集的词向量,对用户输入的分层树所对应的每个实体空间进行初步补全;使用BERT的MASK机制,为每个实体空间生成最佳类名,并使用类名指导扩展的方式为每个实体空间生成候选集,通过计算每个候选实体的得分及与种子集的相似度得分后,将高质量实体补充到对应的实体空间;进行实体消歧,并得到分层树扩展结果。本发明专利技术的基于BERT的自动分层树扩展方法利用语言模型,将理解用户输入的分层树结果,得到每个位置的候选词,并进行填充,最终得到满足用户输入结果要求的分层树。输入结果要求的分层树。输入结果要求的分层树。

An automatic hierarchical tree expansion method based on Bert

【技术实现步骤摘要】
一种基于BERT的自动分层树扩展方法


[0001]本专利技术属于数据处理的
,尤其涉及一种基于BERT的自动分层树扩展方法。

技术介绍

[0002]分层树对许多下游自然语言处理任务中具有广泛的应用。由于人工标注的成本较高且数据质量参差不齐,因此迫切需要自动构建分层树的方法。目前,现有的分层树扩展方法主要是“is

a”的上下位关系,这较大的限制了在现实各个任务中的适用性。因此,本专利技术的目标是用户可以任务输入一个预先设定的分层树上下文格式,系统根据该格式补全整个分层树。但现在的扩展方法并没有达到较高的精度,且效率较低。并不能很好的满足下游任务的需要。
[0003]对分层树扩展的两个主要任务进行优化。第一,对于宽度扩展,使用BERT预训练模型,为每个实体空间赋予一个类名,并通过该类名得到候选实体,最后再经过ANNOY过滤,得到宽度扩展结果。第二,对于深度扩展,使用Word2Vec计算两个节点的上下位关系得分。

技术实现思路

[0004]针对现有技术中存在的不足,本专利技术所要解决的问题在于提供一种基于BERT的自动分层树扩展方法,利用语言模型,将理解用户输入的分层树结果,得到每个位置的候选词,并进行填充,最终得到满足用户输入结果要求的分层树。
[0005]为了解决上述技术问题,本专利技术通过以下技术方案来实现:
[0006]本专利技术提供的基于BERT的自动分层树扩展方法,包括以下步骤:
[0007]S1:通过语料库抽取出实体集并生成实体集的词向量,对用户输入的分层树所对应的每个实体空间进行初步补全;
[0008]S2:使用BERT的MASK机制,为每个实体空间生成最佳类名,并使用类名指导扩展的方式为每个实体空间生成候选集,通过计算每个候选实体的得分及与种子集的相似度得分后,将高质量实体补充到对应的实体空间;
[0009]S3:进行实体消歧,并得到分层树扩展结果。
[0010]进一步的,所述步骤S1中,通过互联网搜索相关文档并通过人工审核将相关文档确定为正样本、强负样本、无关样本与背景样本,将样本分类加入敏感样本库、非敏感样本库、无关样本库和背景样本库。
[0011]进一步的,所述步骤S1的具体步骤如下:
[0012]步骤S1.1:使用数据挖掘的方式,对语料库中的实体进行抽取,作为扩展实体集;
[0013]步骤S1.2:使用Word2Vec模型获取每个实体所对应的词向量;
[0014]步骤S1.3:对于每个实体空间,使用ANNOY或词向量相似度进行初步扩展,用于更准确地表示其实体空间所代表的语义信息。
[0015]优选的,所述步骤S2的具体步骤如下:
[0016]步骤S2.1:对于每个实体空间,通过BERT的MLM任务,找出该实体空间的可能的类名及其得分,并通过得分生成该实体空间的最佳类名和负类名集;
[0017]步骤S2.2:使用最佳类名和负类名集对每个实体空间进行扩展实体,将扩展的实体作为候选集,并计算每个候选实体的得分;
[0018]步骤S2.3:使用ANNOY算法计算每个候选词与种子实体的相似度得分,与类名扩展的得分加权求和后,得到每个实体空间的扩展集。
[0019]进一步的,所述步骤S3的具体步骤如下:
[0020]步骤S3.1:统计出现过在不同实体空间2次以上的实体,即具有歧义的实体;
[0021]步骤S3.2:每个实体只保留得分最后的一个位置,生成最终的分层树扩展结果。
[0022]进一步的,所述步骤S3.2的具体步骤为:
[0023]第一,如果该实体在用户输入的实体中,直接丢弃此实体;
[0024]第二,优先保留歧义实体中的祖先实;
[0025]第三,保留与实体空间中种子实体相似度得分更高的实体。
[0026]由上,本专利技术具有以下有益效果:
[0027]1、首先通过数据挖掘和Word2Vec对语料库的实体进行抽取并生成对应的词向量。其次,使用效率较高的ANNOY模型和词向量相似度对用户输入的树结构进行小规模的扩展。最后,通过基于BERT的类名扩展的方式对每个实体空间生成候选集,并使用ANNOY对候选集进行过滤,再经过实体消歧模块后生成最终的分层树扩展结果。
[0028]2、预先为每个实体空间扩展一定数量的实体,以更准确的表达每个实体空间的语义信息,此步骤扩展难度较低,因此选择效率更高的扩展方式以提高整体的扩展效率。
[0029]3、使用预训练模型BERT为基础进行扩展,用于提高扩展的准确率。
[0030]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其他目的、特征和优点能够更明显易懂,以下结合优选实施例,并配合附图,详细说明如下。
附图说明
[0031]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例的附图作简单地介绍。
[0032]图1为本专利技术的基于BERT的自动分层树扩展方法的流程图;
[0033]图2为本专利技术的分层树扩展算法的流程图。
具体实施方式
[0034]下面结合附图详细说明本专利技术的具体实施方式,其作为本说明书的一部分,通过实施例来说明本专利技术的原理,本专利技术的其他方面、特征及其优点通过该详细说明将会变得一目了然。在所参照的附图中,不同的图中相同或相似的部件使用相同的附图标号来表示。
[0035]本专利技术针对用户输入的分层树结构进行扩展,返回给用户一个更完整的分层树结构。首先,基于ANNOY和Word2Vec对分层树中的每个实体空间进行初步补全,以增强每个实体空间的语义信息。其次,基于BERT的类别扩展方法对每个实体空间分别进行扩展。最后,对扩展后的分层树进行实体消歧后为用户返回最终的扩展结果。
[0036]如图1和图2所示,本专利技术的基于BERT的自动分层树扩展方法,包括以下步骤:
[0037]步骤1:通过语料库抽取出实体集并生成实体集的词向量。对用户输入的分层树所对应的每个实体空间进行初步补全。其中,实体空间为对每个实体节点下的所有实体;
[0038]步骤2:使用BERT的MASK机制,为每个实体空间生成最佳类名。并使用类名指导扩展的方式为每个实体空间生成候选集。通过计算每个候选实体的得分及与种子集的相似度得分后,将高质量实体补充到对应的实体空间;
[0039]步骤3:在经过步骤2后,一个实体可能处于2个或多个不同的实体空间,因此,需要进行实体消歧,并得到分层树扩展结果。
[0040]步骤1的具体步骤如下:
[0041]步骤1.1:使用数据挖掘的方式,对语料库中的实体进行抽取,作为扩展实体集;
[0042]步骤1.2:使用Word2Vec模型获取每个实体所对应的词向量;
[0043]步骤1.3:对于每个实体空间,使用ANNOY或词向量相似度进行初步扩展,用于更准确地表示其实体空间所代表的语义信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BERT的自动分层树扩展方法,其特征在于,包括以下步骤:S1:通过语料库抽取出实体集并生成实体集的词向量,对用户输入的分层树所对应的每个实体空间进行初步补全;S2:使用BERT的MASK机制,为每个实体空间生成最佳类名,并使用类名指导扩展的方式为每个实体空间生成候选集,通过计算每个候选实体的得分及与种子集的相似度得分后,将高质量实体补充到对应的实体空间;S3:进行实体消歧,并得到分层树扩展结果。2.如权利要求1所述的基于BERT的自动分层树扩展方法,其特征在于,所述步骤S1的具体步骤如下:步骤S1.1:使用数据挖掘的方式,对语料库中的实体进行抽取,作为扩展实体集;步骤S1.2:使用Word2Vec模型获取每个实体所对应的词向量;步骤S1.3:对于每个实体空间,使用ANNOY或词向量相似度进行初步扩展,用于更准确地表示其实体空间所代表的语义信息。3.如权利要求1所述的基于BERT的自动分层树扩展方法,其特征在于,所述步骤S2的具体步骤如下:步骤...

【专利技术属性】
技术研发人员:陶明阳王星陈吉张鑫刘亚
申请(专利权)人:临沂大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1