【技术实现步骤摘要】
一种基于关系抽取模型的样本优化方法及系统
[0001]本申请属于数据处理
,具体涉及一种基于关系抽取模型的样本优化方法及系统。
技术介绍
[0002]关系抽取是构建知识图谱的一个重要环节,通过关系抽取,可以确定知识图谱的节点和边,图谱节点表示概念和实体,边表示属性和关系。例如,对于疾病预测相关的知识图谱,通过抽取疾病、症状、多发群体以及它们之间的关系,能够根据一个患者的症状预测是否患有该种疾病的可能性。如图7所示为从一句医学表述中抽取知识图谱的实体及关系的图示。所抽取的实体为:小细胞肺癌、老年吸烟者、咳嗽、胸痛、咯血、呼吸困难和体重减轻,其中,小细胞肺癌为一种疾病的名称,老年吸烟者为多发群体,咳嗽、胸痛、咯血、呼吸困难和体重减轻为对应这种疾病的症状。通过抽取小细胞肺癌、老年吸烟者、咳嗽、胸痛、咯血、呼吸困难和体重减轻各个实体之间的关系,构建知识图谱,若知道一个患者的症状,便可以预测出该患者是否患有小细胞肺癌这种疾病的可能性。可见关系抽取在知识图谱的构建及其应用过程中有着重要的作用。
[0003]但是现有技术存在 ...
【技术保护点】
【技术特征摘要】
1.一种基于关系抽取模型的样本优化方法,其特征在于,包括如下步骤:步骤S1:获取训练样本集,所述训练样本集包括M条样本,每条样本由多个已标记的实体以及实体之间的关系组成;步骤S2:构建已知实体的关系列表,即针对每两个已知实体进行排列组合,得到所有已知实体对,将所有已知实体对以及已知实体对之间的关系保存到关系列表中;步骤S3:根据已知实体的关系列表,在训练样本集中,若实体以及实体之间的关系不存在于已知实体的关系列表中,则删除训练样本集中该实体以及实体之间的关系,得到新的训练样本集;步骤S4:在新的训练样本集中取出任一样本,将任一样本改造成正样本与负样本的集合,即针对任一样本中每两个已标记实体进行排列组合,若负样本超出设定阈值,则阻止已标记实体与其他已标记实体进行组合,得到已标记实体之间的排列组合以及对应关系类型;步骤S5:直到新的训练样本集中的所有样本均经过步骤S4的阈值处理,得到最终的输入样本。2.如权利要求1所述的基于关系抽取模型的样本优化方法,其特征在于,所述根据已知实体的关系列表,在训练样本集中,若实体以及实体之间的关系不存在于已知实体的关系列表中,则删除训练样本集中该实体以及实体之间的关系,得到新的训练样本集,包括如下步骤:步骤S3.1:遍历训练样本集中的M条样本;步骤S3.2:遍历每一条样本中的已标记实体以及已标记实体之间的关系;步骤S3.3:判断已标记实体以及已标记实体之间的关系是否存在于已知实体的关系列表中;步骤S3.4:若已标记实体以及已标记实体之间的关系存在于已知实体的关系列表中,则保留该已标记实体以及已标记实体之间的关系;步骤S3.5:若已标记实体以及已标记实体之间的关系不存在于已知实体的关系列表中,则删除该已标记实体以及已标记实体之间的关系的对应标记。3.如权利要求1所述的基于关系抽取模型的样本优化方法,其特征在于,所述正样本,定义为在所取的任一样本中若已标记实体之间存在关系,即关系类型为存在关系,则称该已标记实体对的排列组合以及对应关系类型为正样本;所述负样本,定义为在所取的任一样本中若已标记实体之间不存在关系,即关系类型为不存在关系,则称该已标记实体对的排列组合以及对应关系类型为负样本。4.如权利要求1所述的基于关系抽取模型的样本优化方法,其特征在于,所述在新的训练样本集中取出任一样本,将任一样本改造成正样本与负样本的集合,包括如下步骤:步骤S4.1:在任一样本中,针对任一样本中每两个已标记实体对进行排列组合;步骤S4.2:当已标记实体与实体进行排列组合时,识别二者之间在所述任一样本中是否存在关系;步骤S4.3:如果存在关系,则将该已标记实体之间的排列组合以及对应关系类型保存为正样本;
步骤S4.4:如果不存在关系,判断此时在所述任一样本中负样本数量是否超过设定阈值;步骤S4.5:若超过设定阈值,则阻止所述该已标记实体与其他已标记实体进行组合;步骤S4.6:若未超过设定阈值,则允许所述已标记实体继续与其他已标记实体进行组合,并将该已标记实体之间的排列组合以及对应关系类型保存为负样本。5.如权利要求3所述的基于关系抽取模型的样本优化方法,其特征在于,所述负样本与所述正样本的数量总和为:N
×
(N
‑
1),其中,N表示所取的任一样本中已标记实体个数。6.一种基于关系抽取模型的样...
【专利技术属性】
技术研发人员:宋佳祥,杨雅婷,许娟,朱宁,白焜太,刘硕,
申请(专利权)人:神州医疗科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。