知识图谱构建方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:24888885 阅读:73 留言:0更新日期:2020-07-14 18:16
本申请提供一种知识图谱构建方法、装置、电子设备及可读存储介质,包括:根据依存语法树对原始文本进行处理,获得原始文本对应的多个初选扩充文本,初选扩充文本由原始文本通过分词顺序调换组成;获取原始文本中的分词的至少一个近同词,分词为组成原始文本的词;对多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;根据多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱。与原有的知识图谱相比,实体数量更多,实体之间的相互关系更复杂;且利用依存语法树得到初选扩充文本,改善了现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。

【技术实现步骤摘要】
知识图谱构建方法、装置、电子设备及可读存储介质
本申请涉及语法分析领域,具体而言,涉及一种知识图谱构建方法、装置、电子设备及可读存储介质。
技术介绍
现有技术中通常是通过传统的扩充样本对原始文本进行扩充,或者根据循环扩充训练集的方式对原始文本进行扩充;再利用扩充后的文本以及近同词构建新的知识图谱。现有技术在构建知识图谱时,受限于文本长度或复杂度的影响,相对时间复杂度较高。
技术实现思路
本申请实施例的目的在于提供一种知识图谱构建方法、装置、电子设备及可读存储介质,用以改善现有技术受限于文本长度或复杂度的影响,相对时间复杂度较高的问题。第一方面,本申请实施例提供了一种知识图谱构建方法,所述方法包括:根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;根据所述多个次选扩充文本以及知识图谱关联本文档来自技高网...

【技术保护点】
1.一种知识图谱构建方法,其特征在于,所述方法包括:/n根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;/n获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;/n对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;/n根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图...

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:
根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,所述初选扩充文本由所述原始文本通过分词顺序调换组成;
获取所述原始文本中的分词的至少一个近同词,所述分词为组成所述原始文本的词;
对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本;
根据所述多个次选扩充文本以及知识图谱关联关系,对原始知识图谱进行扩充,得到扩充后的知识图谱,其中,所述知识图谱关联关系为实体-关系-实体,所述多个次选扩充文本中每个次选扩充文本对应的实体为所述原始文本对应的实体的近同词;所述扩充后的知识图谱包括所述原始文本对应的实体以及所述次选扩充文本对应的实体共同构成的知识图谱关联关系。


2.根据权利要求1所述的方法,其特征在于,所述根据依存语法树对原始文本进行处理,获得所述原始文本对应的多个初选扩充文本,包括:
对所述原始文本进行依存语法分析,获取所述原始文本的树形图,其中,所述树形图包括能组成所述原始文本的多个分词,所述多个分词被根据所述依存语法划分在所述树形图的多个层;
根据所述树形图的每层的分词与该层的头节点的相对方位,对每层的分词进行分组,获取至少一个分词词组;
对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本。


3.根据权利要求2所述的方法,其特征在于,所述对包括有分词词组的树形图进行文本生成,得到所述原始文本对应的多个初选扩充文本,包括:
在文本生成过程中遇到至少两个分词组成的分词词组时,以所述分词词组对应的节点替换所述至少两个分词分别对应的至少两个节点,其中,所述分词词组对应的节点包括所述至少两个分词排列组合形成的结果;
生成包括有排列组合的结果的结果文本;
展开所述结果文本,获得所述多个初选扩充文本。


4.根据权利要求1所述的方法,其特征在于,所述对所述多个初选扩充文本中的每个初选扩充文本,根据预设规则进行近同词替换,获得多个次选扩充文本,包括:
对于初选扩充文本中的分词,判断分词对应的至少一个近同词的数量是否小于m个;
若是,以所述至少一个近同词中的每个近同词分别替换所述分词,获得所述初选扩充文本对应的多个次选扩充文本。


5.根据权利要求4所述的方法,其特征在于,所述判断分词对应的至少一个近同词的数量是否小于m个之后,所述方法还包括:
若所述分词对应的至少一个近同词的数量大于或等于m个,从所述至少一个近同词中随...

【专利技术属性】
技术研发人员:黄晓萌安旭王溪
申请(专利权)人:中金智汇科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1