一种基于关系模型的指代消歧的训练方法及系统技术方案

技术编号:35653687 阅读:19 留言:0更新日期:2022-11-19 16:49
本发明专利技术涉及人工智能技术领域,具体涉及一种基于关系模型的指代消歧的训练方法及系统,该方法将任意一个样本中的所有指代词作为主语分别标注为主语标签形成主语训练数据;按照指代词出现的顺序,在当前指代词为主语时,将当前指代词的两侧添加标记符并将上一个指代词作为宾语且标注为关系标签形成关系训练数据,获取所有指代词作为主语时对应的关系训练数据,得到关系训练集;获取主语训练数据和关系训练集中每个字符的特征向量,将所有样本的主语训练数据、关系训练集和特征向量输入关系模型中进行训练,使关系模型提取出正确的关系,解决了目前关系模型无法识别多次出现的同一个指代词与实体之间的关系的问题。一个指代词与实体之间的关系的问题。一个指代词与实体之间的关系的问题。

【技术实现步骤摘要】
一种基于关系模型的指代消歧的训练方法及系统


[0001]本专利技术涉及人工智能
,具体涉及一种基于关系模型的指代消歧的训练方法及系统。

技术介绍

[0002]关系抽取任务,就是从一句话中,找到哪些实体与哪些实体有哪些关系。关系抽取任务是信息提取中的一个重要子任务。关系抽取可以从复杂的非结构化文本中提取出机器能够理解的结构化数据。非结构化的文本在进行关系抽取之后,可以得到结构化的图数据,进行实体与实体之间的跨文本关联。所谓的关系,指的是文本中实体与实体之间的关系,具体的关系为一系列的主谓宾三元组:(主语S,谓语P,宾语O)。在关系抽取模型中,目前主流的方法之一是采用多轮问答法。
[0003]对于李晓雅,殷凡,孙子军,李霞宇等人于2019年在意大利佛罗伦萨的计算语言学协会发表并被收录在计算语言学协会第57届年会论文集的第1340

1350页中的实体关系提取作为多轮次问答的论文中公开了将任务转换为多回合问答问题,即实体和关系的提取转换为从上下文中识别答案跨度的任务,也即多轮问答法就是对文中的每个实体类型,进行多轮问答,从而提取出所有的关系,该方案的缺点在于:文本中如果出现多个指代同一实体的指代词,则无法识别相应指代词与实体之间的关系是什么,也不能确定反复出现的多个指代词是否是指代的同一个实体。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的在于提供一种基于关系模型的指代消歧的训练方法及系统,所采用的技术方案具体如下:
[0005]第一方面,本专利技术一个实施例提供了一种基于关系模型的指代消歧的训练方法,该训练方法包括:
[0006]S100,获取训练集T,T中包括n个文本样本T={T1,T2,

,T
n
},其中第i个文本样本T
i
中包括m个实体Su
i
={Su
i,1
,Su
i,2
,

,Su
i,m
}和R(j)个指代T
i
中第j个实体Su
i,j
的指代词Z中元素的顺序是按照指代词在T
i
中出现的顺序排序,i的取值范围为1到n,R(j)的函数值为整数且满足j的取值范围为1到m;
[0007]S200,将T
i
中的SUM个指代词分别标记为主语标签,得到T
i
的主语训练数据;
[0008]S300,将文本样本T
i
中的任意一个指代词作为主语标注关系标签得到一条关系训练数据,获取SUM个指代词的关系训练数据集;其中,第r个指代Su
i,j
的指代词作为主语的关系训练数据为:在T
i
中的两侧分别添加第一标识符和第二标识符,得到调整后的T
i
;将调整后的T
i
中第r

1个指代Su
i,j
的指代词作为宾语,将宾语标注为指代关系标签;当r=1时,将Su
i,j
作为宾语且标注为指代关系标签;其中,r的取值范围为1到R;
[0009]S400,获取主语训练数据和关系训练数据集中每个字符的特征向量,将n个文本样
本T中所有文本样本的主语训练数据、关系训练数据集和特征向量输入关系模型中,对关系模型进行训练。
[0010]第二方面,本专利技术另一个实施例提供了一种基于关系模型的指代消歧的训练系统,所述系统包括处理器和非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述训练方法。
[0011]本专利技术具有如下有益效果:
[0012]该训练方法按照指代词在样本T
i
中出现的顺序排序,获取样本T
i
的主语训练数据和关系训练数据集,其中主语训练数据是将所有指代词标注为主语标签,关系训练数据是将任意一个指代词作为主语,在主语的两侧增加标识符得到调整后的文本,并在调整后的文本中将作为主语的前一个指代词或者实体作为宾语标注为指代关系标签,获取n个样本中每个样本的主语训练数据和关系训练数据集及其特征向量,并将其输入关系模型中进行训练,通过该方式训练关系模型,使关系模型提取出正确的关系,得到正确的关系图谱,解决了目前关系模型无法识别在一个文本中多次出现同一个指代词与实体之间的关系的问题。
附图说明
[0013]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
[0014]图1为本专利技术一个实施例所提供的一种基于关系模型的指代消歧的训练方法流程图。
具体实施方式
[0015]为了更进一步阐述本专利技术为达成预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术提出的一种基于关系模型的指代消歧的训练方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
[0016]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。
[0017]下面结合附图具体的说明本专利技术所提供的一种基于关系模型的指代消歧的训练方法及系统的具体方案。
[0018]请参阅图1,其示出了本专利技术一个实施例提供的一种基于关系模型的指代消歧的训练方法流程图,该训练方法包括以下步骤:
[0019]S100,获取训练集T,T中包括n个文本样本T={T1,T2,

,T
n
},其中第i个文本样本T
i
中包括m个实体Su
i
={Su
i,1
,Su
i,2
,

,Su
i,m
}和R(j)个指代T
i
中第j个实体Su
i,j
的指代词Z中元素的顺序是按照指代词在T
i
中出现的顺序排序,i的取值范围
为1到n,R(j)的函数值为整数且满足j的取值范围为1到m。
[0020]可选的,实体为命名实体。进一步,命名实体为人名实体。
[0021]可选的,在实体为人名实体时,指代词为人称代词。
[0022]例如:一个文本样本为“张三在北京上班,他的父亲是张大,他的母亲是李四,他今年刚毕业,他好不容易才找到的工作”,在该文本中包括3个人名实体{张三,张大,李四}和4个指代张三的人称代词“他”,按照自然顺序排序并为了方便表达这本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于关系模型的指代消歧的训练方法,其特征在于,该训练方法包括:S100,获取训练集T,T中包括n个文本样本T={T1,T2,

,T
n
},其中第i个文本样本T
i
中包括m个实体Su
i
={Su
i,1
,Su
i,2
,

,Su
i,m
}和R(j)个指代T
i
中第j个实体Su
i,j
的指代词Z中元素的顺序是按照指代词在T
i
中出现的顺序排序,i的取值范围为1到n,R(j)的函数值为整数且满足j的取值范围为1到m;S200,将T
i
中的SUM个指代词分别标记为主语标签,得到T
i
的主语训练数据;S300,将文本样本T
i
中的任意一个指代词作为主语标注关系标签得到一条关系训练数据,获取SUM个指代词的关系训练数据集;其中,第r个指代Su
i,j
的指代词作为主语的关系训练数据为:在T
i
中的两侧分别添加第一标识符和第二标识符,得到调整后的T
i
;将调整后的T
i
中第r

1个指代Su
i,j
的指代词作为宾语,将宾语标注为指代关系标签;当r=1时,将Su
i,j
作为宾语且标注为指代关系标签;其中,r的取值范围为1到R;S400,获取主语训练数据和关系训练数据集中每个字符的特征向量,将n个文本样本T中所有文本样本的主语训练数据、关系训练数据集和特征向量输入关系模型中,对关系模型进行训练。2.根据权利要求1所述的基于关系模型的指代消歧的训练方法,其特征在于,所述步骤S400之后还包括后处理步骤:S520,获取关系模型输出的具有K条关系的关系列表L={L1,L2,

L
K...

【专利技术属性】
技术研发人员:于伟靳雯赵洲洋石江枫王全修吴凡
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1