一种结合知识图谱和文本信息的相关公司挖掘方法技术

技术编号:20842300 阅读:26 留言:0更新日期:2019-04-13 08:43
本发明专利技术是一种结合知识图谱和文本信息的相关公司挖掘方法。结合知识图谱和文本信息的相关公司挖掘系统包括:深度学习关系抽取模块、知识库关系提取模块、PRA训练模块、PRA预测模块、模型库管理模块、用户反馈模块。用户可以从样本库中提取数据训练PRA模型,并存入模型库,还可以通过提取end‑to‑end模型和存储训练的PRA模型,以此预测公司的相关公司及公司之间的关系,作为公司知识图谱的一种发现和补充。本发明专利技术将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。

【技术实现步骤摘要】
一种结合知识图谱和文本信息的相关公司挖掘方法
本专利技术属于网络信息处理
,具体涉及一种结合知识图谱和文本信息的相关公司挖掘方法。
技术介绍
在人工智能兴起的大背景下,知识图谱作为一种全面的表达方式已经得到越来越多的关注,越来越多的研究者投入到了知识图谱的研究中。福尔摩斯说过:“一个逻辑学家,不需要亲眼见过,或听过大西洋和尼亚加拉大瀑布,他从一滴水中就能推测出它们。知识图谱就像福尔摩斯破案一样,首先需要采集散布在各个角落的碎片化信息和数据,然后把它按标准化思考方式整理,再将各个看似不相关但背后有着共同联系的信息关联起来挖掘背后的规律,据此做深入的推理。2012年,Google率先在自己的搜索引擎中加入了知识图谱,当用户查询关键词的时候,不仅能够得到相关网页,还可以得到更多与查询词相关的其他信息。从技术的角度来说,知识图谱是一个由数据到信息再到知识,最后转化为智慧的过程。知识图谱技术包括以下三个方面的研究内容:1)知识表示:研究客观世界知识的建模,以方便机器识别和理解,既要考虑知识的表示与存储,又要考虑知识的使用和计算;2)知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识,主要研究使用何种数据和方法抽取何种知识;3)知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务系统,更好地解决实际应用问题。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式,使得网络的智能化水平更高,更加接近于人类的认知思维。在关注到知识图谱在自然语言处理、人工智能等领域展现巨大潜力的同时,也不难发现知识图谱中的知识获取、知识表示、知识推理等技术依然面临着一些困难与挑战,很多重要的开放问题急待学术界与工业界协力来解决。知识图谱的主要挑战问题主要包括:1.知识的自动获取;2.多源知识的自动融合;3.面向知识的表示学习;4.知识推理与应用等。在开放源的文本中,如何提取实体和实体之间的关系,一直是知识图谱领域中一个比较棘手的问题。围绕这方面研究主要是entity和relationextraction。虽然NLP领域也对这个问题研究了很多年,但是在开放信息源中的效果并不是很理想。在未来的几年时间内,知识图谱仍将是大数据智能的前沿研究问题。其中,知识图谱和文本信息的结合将是其中一个重要的方向。现如今,公司之间的竞争越来越激烈,因此,研究竞争对手,寻找合作伙伴等都变得越来越重要,研究竞争对手可以让公司明白自己与对手相比之下的优势或劣势,有便于差异化竞争或针对性的补强,在与同级别同领域的竞争中确立优势。寻找合作伙伴,确立合作关系,公司之间的信息共享,资源共享等更能直接的让公司具备更强的竞争力,因此,公司之间的关系挖掘是十分具有价值的。
技术实现思路
为了解决上述问题,本专利技术提出了一种结合知识图谱和文本信息的相关公司挖掘的方法。本专利技术将知识图谱中的公司实体关系当作PRA中的限定集,保证了限定集的准确度同时又最大限度降低了限定集的规模,减少了无关路径的数量。本专利技术的结合知识图谱和文本信息的相关公司挖掘方法,结合知识图谱和文本信息的相关公司挖掘包括有:深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;知识库关系提取模块:提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;PRA预测模块:输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;模型库管理模块:在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。本专利技术用样本库接口在样本库中提取公司的文本,在模型库中导入end-to-end深度学习模型进行文本中重要属性及公司关系的抽取。将抽取的公司间的重要属性作为知识图谱中特殊的边参与PRA的计算,如公司间相似的经营范围,相似的用户群体等。将这些相似的属性作为PRA计算的限定集。在PRA进行随机游走时,匹配限定集中的属性,若存在关系则设为1,不存在则设为0。为了区分不同实体及路径的权重,需要设定权重参数θ。将对应的路径与权重相乘即可得到区分实体重要性的效果。对权重参数θ的估计,即是训练model的目标。有许多方法可以使用,最常用的如逻辑回归分类模型、BLMVM、L-BFGS等。我们可以用关系R和(起点si,终点ti)的集合来构造所需的训练集,最终通过分类器得到所需的权重。这样,在公司之间会产生许多条连接公司的路径,其由公司间相似的实体关系组成。推理这条路径,即可得到最终公司间的关系。那么怎么推理呢?将通过深度学习抽取公司间的关系作为label,对通过PRA随机游走得到的score最高的路径进行类别划分。模型训练结束后,就输入模型库中,在新文本进入deep-learning和KB,得到限定集后进入PRA随机游走,得到score最高的path后再从模型库导出之前训练的关系推理规则进行预测。预测的结果即最终得到的公司之间的关系。值得一提的是,公司间的关系是复杂多样的,本专利技术主要探讨一下四种公司关系:竞争对手,本文档来自技高网
...

【技术保护点】
1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:深度学习关系抽取模块(1):通过样本接口从样本库中提取公司的相关文本输入预训练的end‑to‑end神经网络模型,输出文本中所有实体及相关关系的三元组;知识库关系提取模块(2):提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;PRA训练模块(3):在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;PRA预测模块(4):输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;模型库管理模块(5):在deep‑learning抽取实体及实体关系三元组时,需要从模型库中导入end‑to‑end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end‑to‑end模型;训练的PRA模型也需要及时更新;用户反馈模块(6):对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。...

【技术特征摘要】
1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:深度学习关系抽取模块(1):通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型,输出文本中所有实体及相关关系的三元组;知识库关系提取模块(2):提取公司间特殊实体的相关关系,如公司间类似的经营范围,用户群体;将其当作知识图谱特殊的边参与到PRA的计算中;这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强,增强了预测的可靠性;PRA训练模块(3):在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score;依此类推,得到不同终点对应的所有路径的score;最高的score代表的路径则表达了公司间的关系最强;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;而公司间的关系不止一种,竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;PRA预测模块(4):输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习到规则进行比对,看这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;模型库管理模块(5):在deep-learning抽取实体及实体关系三元组时,需要从模型库中导入end-to-end的神经网络模型;PRA训练模块中训练好的PRA模型也需要及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,根据需要调取不同的end-to-end模型;训练的PRA模型也需要及时更新;用户反馈模块(6):对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后可以进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程,能进一步提高预测的准确率;结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。2.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,end-to-end模型采用了LSTM-RC的联合模型,不同于流水线式的命名实体识别-关系抽取模型,其采用了参数共享,充分利用了命名实体识别和关系抽取之间的联系信息,抽取的效果也更好,end-to-end不需对文本做其他的处理即可得到实体关系三元组,有利于知识图谱的快速构建。3.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,在用PRA计算两个公司的之间的关系时,在联系两个公司的实体之间也会有相关关系,这些相关关系连接起来形成一条A公司通往B公司的路径,同时,A’和B’之间的路径可能不止一条,此时需要将所有出现的路径综合考虑;对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep-learning抽取出来;因此,将DL抽取出来的各个关系作为各个权重分布的laebl,将各个路径所对应的短路径作为特征,训练特征的权重分布,即可得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布,并将关系种类放入列表中作为参数供预测时提取;另外,输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生一定数量的游走路径,将每一段路径其乘以对应的θ,可得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。4.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对新输入的公司A’和B’,要预测它们之间的关系,只需把其对应在知识图谱中的限定集及文本输入训练好的PRA模型,得到最终的path,将其与PRA训练模块中学到的...

【专利技术属性】
技术研发人员:龙世增蔡瑞初毕辉李楠
申请(专利权)人:广州初星科技有限公司
类型:发明
国别省市:广东,44

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1