职位信息图谱生成方法、装置、设备和介质制造方法及图纸

技术编号:24410089 阅读:33 留言:0更新日期:2020-06-06 08:48
本申请实施例公开了一种职位信息图谱生成方法、装置、设备和介质,涉及知识图谱技术,其中,该方法包括:识别语料中每个语句中的触发词,其中,触发词用于表示就职或者卸任的实体关系;确定触发词在每个语句中的位置;根据触发词的位置,抽取每个语句中的实体对、以及实体关系的时间区间;基于实体关系、实体对、以及实体关系的时间区间,生成职位信息图谱。本申请实施例可以减少职位信息抽取的人力成本,提高职位信息抽取的泛化性。

Generation method, device, equipment and medium of position information map

【技术实现步骤摘要】
职位信息图谱生成方法、装置、设备和介质
本申请实施例涉及计算机技术,具体涉及知识图谱技术,尤其涉及一种职位信息图谱生成方法、装置、设备和介质。
技术介绍
知识抽取任务是知识图谱构建中最重要的任务之一,主要是通过自动化或者半自动化的技术,在互联网的海量网页与自然语言文本中,抽取出可用的知识单元,用于补充知识图谱中的实体对属性与实体关系。知识单元通常以SPO三元组的形式构成,包括实体(S)、实体属性/实体对之间的关系(P)以及实体属性值/关联实体(O)这3个要素。通常,官方发布的政治人物任免的新闻的表述比较正式,表达任免信息的句法比较相似,因此,可以通过设计正则表达式,从官方任免公告或者可靠的新闻来源中直接抽取具体的职位信息。然而,上述实现方式存在以下问题:1)人力成本高,需要根据句法样式设计正则表达式,针对不同的数据来源和表述方式,还需要做相应的修改;2)泛化性差,只能针对少量的比较正式的文本进行抽取,不能自适应泛化到其他的新闻语料中。
技术实现思路
本申请实施例公开一种职位信息图谱生成方法、装置、设备本文档来自技高网...

【技术保护点】
1.一种职位信息图谱生成方法,其特征在于,包括:/n识别语料中每个语句中的触发词,其中,所述触发词用于表示就职或者卸任的实体关系;/n确定所述触发词在每个语句中的位置;/n根据所述触发词的位置,抽取每个语句中的实体对、以及所述实体关系的时间区间;/n基于所述实体关系、实体对、以及所述实体关系的时间区间,生成职位信息图谱。/n

【技术特征摘要】
1.一种职位信息图谱生成方法,其特征在于,包括:
识别语料中每个语句中的触发词,其中,所述触发词用于表示就职或者卸任的实体关系;
确定所述触发词在每个语句中的位置;
根据所述触发词的位置,抽取每个语句中的实体对、以及所述实体关系的时间区间;
基于所述实体关系、实体对、以及所述实体关系的时间区间,生成职位信息图谱。


2.根据权利要求1所述的方法,其特征在于,所述识别语料中每个语句中的触发词,包括:
对所述语料中的每个语句进行分词,得到每个语句中的多个词语;
将所述多个词语分别在预先确定的触发词表中进行匹配;
将匹配成功的词语确定为所述触发词。


3.根据权利要求2所述的方法,其特征在于,在将所述多个词语分别在预先确定的触发词表中进行匹配之前,所述方法还包括:
将通过对所述语料中的每个语句进行分词得到的各词语进行词性标注;
根据知识抽取需求,以及词性标注的动词在所述语料中的词频信息,确定所述触发词表。


4.根据权利要求1所述的方法,其特征在于,根据所述触发词的位置,抽取每个语句中的实体对、以及所述实体关系的时间区间,包括:
根据所述触发词的位置,确定每个语句中的其他词语与所述触发词的距离;
基于每个语句的分词序列、所述触发词的位置、以及每个语句中的其他词语与所述触发词的距离,利用预先训练的特征提取模型,对每个语句进行特征提取;
基于每个语句的提取特征,对每个语句中的词语进行分类标注,得到所述实体对、以及所述实体关系的时间区间。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将训练语料集中每个语句的分词序列、每个语句中触发词的位置、以及每个语句中的其他词语与触发词的距离,作为训练输入;
将所述训练语料集中每个语句中关于实体对和实体关系的时间区间的标记结果,作为训练输出;
基于所述训练输入和所述训练输出,训练得到多元数据抽取模型,使得利用所述多元数据抽取模型执行所述特征提取和所述分类标注操作。


6.根据权利要求1所述的方法,其特征在于,在基于所述实体关系、实体对、以及所述实体关系的时间区间,生成职位信息图谱之前,所述方法还包括:
如果每个语句中主体和客体之间的对应关系为一对多,则根据每个语句中主体和客体的位置关系,对实体对进行筛选,得到最终的实体对。<...

【专利技术属性】
技术研发人员:黄昉李双婕史亚冰蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1