一种基于关系模型的指代消歧的训练方法及系统技术方案

技术编号：35653687 阅读：19 留言：0更新日期：2022-11-19 16:49

本发明专利技术涉及人工智能技术领域，具体涉及一种基于关系模型的指代消歧的训练方法及系统，该方法将任意一个样本中的所有指代词作为主语分别标注为主语标签形成主语训练数据；按照指代词出现的顺序，在当前指代词为主语时，将当前指代词的两侧添加标记符并将上一个指代词作为宾语且标注为关系标签形成关系训练数据，获取所有指代词作为主语时对应的关系训练数据，得到关系训练集；获取主语训练数据和关系训练集中每个字符的特征向量，将所有样本的主语训练数据、关系训练集和特征向量输入关系模型中进行训练，使关系模型提取出正确的关系，解决了目前关系模型无法识别多次出现的同一个指代词与实体之间的关系的问题。一个指代词与实体之间的关系的问题。一个指代词与实体之间的关系的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于关系模型的指代消歧的训练方法及系统

[0001]本专利技术涉及人工智能
，具体涉及一种基于关系模型的指代消歧的训练方法及系统。

技术介绍

[0002]关系抽取任务，就是从一句话中，找到哪些实体与哪些实体有哪些关系。关系抽取任务是信息提取中的一个重要子任务。关系抽取可以从复杂的非结构化文本中提取出机器能够理解的结构化数据。非结构化的文本在进行关系抽取之后，可以得到结构化的图数据，进行实体与实体之间的跨文本关联。所谓的关系，指的是文本中实体与实体之间的关系，具体的关系为一系列的主谓宾三元组：(主语S，谓语P，宾语O)。在关系抽取模型中，目前主流的方法之一是采用多轮问答法。
[0003]对于李晓雅，殷凡，孙子军，李霞宇等人于2019年在意大利佛罗伦萨的计算语言学协会发表并被收录在计算语言学协会第57届年会论文集的第1340
‑
1350页中的实体关系提取作为多轮次问答的论文中公开了将任务转换为多回合问答问题，即实体和关系的提取转换为从上下文中识别答案跨度的任务，也即多轮问答法就是对文中的每个实体类型，进行多轮问答，从而提取出所有的关系，该方案的缺点在于：文本中如果出现多个指代同一实体的指代词，则无法识别相应指代词与实体之间的关系是什么，也不能确定反复出现的多个指代词是否是指代的同一个实体。

技术实现思路

[0004]为了解决上述技术问题，本专利技术的目的在于提供一种基于关系模型的指代消歧的训练方法及系统，所采用的技术方案具体如下：
[0005]第一方面，本专利技...

【技术保护点】

【技术特征摘要】
1.一种基于关系模型的指代消歧的训练方法，其特征在于，该训练方法包括：S100，获取训练集T，T中包括n个文本样本T＝{T1,T2,
…
,T
n
}，其中第i个文本样本T
i
中包括m个实体Su
i
＝{Su
i,1
,Su
i,2
,
…
,Su
i,m
}和R(j)个指代T
i
中第j个实体Su
i,j
的指代词Z中元素的顺序是按照指代词在T
i
中出现的顺序排序，i的取值范围为1到n，R(j)的函数值为整数且满足j的取值范围为1到m；S200，将T
i
中的SUM个指代词分别标记为主语标签，得到T
i
的主语训练数据；S300，将文本样本T
i
中的任意一个指代词作为主语标注关系标签得到一条关系训练数据，获取SUM个指代词的关系训练数据集；其中，第r个指代Su
i,j
的指代词作为主语的关系训练数据为：在T
i
中的两侧分别添加第一标识符和第二标识符，得到调整后的T
i
；将调整后的T
i
中第r
‑
1个指代Su
i,j
的指代词作为宾语，将宾语标注为指代关系标签；当r＝1时，将Su
i,j
作为宾语且标注为指代关系标签；其中，r的取值范围为1到R；S400，获取主语训练数据和关系训练数据集中每个字符的特征向量，将n个文本样本T中所有文本样本的主语训练数据、关系训练数据集和特征向量输入关系模型中，对关系模型进行训练。2.根据权利要求1所述的基于关系模型的指代消歧的训练方法，其特征在于，所述步骤S400之后还包括后处理步骤：S520，获取关系模型输出的具有K条关系的关系列表L＝{L1,L2,
…
L
K...

【专利技术属性】
技术研发人员：于伟，靳雯，赵洲洋，石江枫，王全修，吴凡，
申请(专利权)人：日照睿安信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人