【技术实现步骤摘要】
基于深度学习的实体关系抽取方法、装置及服务器
本专利技术涉及数据处理和数据挖掘的
,尤其涉及基于深度学习的实体关系抽取方法、装置及服务器。
技术介绍
随着信息技术的发展,产生了海量的并且仍在不断增长的信息,例如新闻、博客、微博中的信息等。所产生的信息中包含很多实体(pair)以及各个实体之间的实体关系模式。如果能够从所产生的信息中提取各个实体及其之间的实体关系模式,则可以利用所提取的各个实体及其之间的实体关系模式更有效地进行信息检索、知识挖掘、科学假设产生等等。实体关系挖掘常用的有两种方法:一是基于图谱(schema)下的限定关系挖掘,即在有限的给定的关系以及与关系相关的实体分类的情况下,对每个关系分别建模挖掘其相关的实体和关系数据,例如,人物和人物之间的父子关系;二是限定实体中的主体和关系,对实体中的客体进行挖掘,即基于用户搜索的客体和关系,根据搜索引擎给出的相关语料挖掘主体,例如,给定(刘德华,妻子),挖掘结果应该是朱丽倩。但是,上述两种方法均难以全面地和准确地从海量的、非结构化的信息中提取各个实体及其之间的实体关系模式。
技术实现思路
本专利技术实施例提供 ...
【技术保护点】
一种基于深度学习的实体关系抽取方法,其特征在于,所述方法包括:对待挖掘文本进行预处理,以获取所述待挖掘文本中包含有实体和关系的句子;获取所述句子中存在的实体对组合,以及所述实体对组合存在的候选关系;确定与所述实体对组合对应的候选关系。
【技术特征摘要】
1.一种基于深度学习的实体关系抽取方法,其特征在于,所述方法包括:对待挖掘文本进行预处理,以获取所述待挖掘文本中包含有实体和关系的句子;获取所述句子中存在的实体对组合,以及所述实体对组合存在的候选关系;确定与所述实体对组合对应的候选关系。2.根据权利要求1所述的方法,其特征在于,对待挖掘文本进行预处理,包括:对所述待挖掘文本进行分句;然后对分句后得到的句子进行词法和句法分析,以识别句子中的实体,获得所述包含有实体的关系的句子。3.根据权利要求1所述的方法,其特征在于,获取所述句子中存在的实体对组合,包括:圈定所述句子中所有的实体对组合;根据所述所有的实体对组合,确定所述可能存在关系的实体对组合。4.根据权利要求3所述的方法,其特征在于,圈定所述句子中所有的实体对组合,包括:识别所述句子中包含的所有实体;对所述实体进行两个有序排列,以形成可能的候选实体对组合。5.根据权利要求3所述的方法,其特征在于,确定所述可能存在关系的实体对组合,包括:根据过滤条件筛选所述可能的候选实体对组合,得到所述可能存在关系的实体对组合;其中所述过滤条件是根据所述实体对组合在依存树上的距离、所述实体对组合是否为所在句子中的名词词组的核心词以及所述实体对组合的词性确定的。6.根据权利要求1所述的方法,其特征在于,获取所述实体对组合存在的候选关系,包括:圈定所述句子中存在的关系,以确定与所述实体对组合可能对应的候选关系;根据所述可能对应的候选关系中确定与所述实体对组合对应的候选关系。7.根据权利要求6所述的方法,其特征在于,圈定所述句子中存在的关系,以确定与所述实体对组合可能对应的候选关系,包括:抽取关系树下所有的名词和动词。8.根据权利要求1所述的方法,其特征在于,确定与所述实体对组合对应的候选关系,包括:根据实体关系判别模型判别实体对组合和其可能对应的候选关系,获得输出结...
【专利技术属性】
技术研发人员:李双婕,史亚冰,梁海金,张扬,李京峰,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。