一种结合知识图谱和文本信息的相关公司挖掘方法技术

技术编号：20842300 阅读：26 留言：0更新日期：2019-04-13 08:43

本发明专利技术是一种结合知识图谱和文本信息的相关公司挖掘方法。结合知识图谱和文本信息的相关公司挖掘系统包括：深度学习关系抽取模块、知识库关系提取模块、PRA训练模块、PRA预测模块、模型库管理模块、用户反馈模块。用户可以从样本库中提取数据训练PRA模型，并存入模型库，还可以通过提取end‑to‑end模型和存储训练的PRA模型，以此预测公司的相关公司及公司之间的关系，作为公司知识图谱的一种发现和补充。本发明专利技术将知识图谱中的公司实体关系当作PRA中的限定集，保证了限定集的准确度同时又最大限度降低了限定集的规模，减少了无关路径的数量。

全部详细技术资料下载

【技术实现步骤摘要】
一种结合知识图谱和文本信息的相关公司挖掘方法
本专利技术属于网络信息处理
，具体涉及一种结合知识图谱和文本信息的相关公司挖掘方法。
技术介绍
在人工智能兴起的大背景下，知识图谱作为一种全面的表达方式已经得到越来越多的关注，越来越多的研究者投入到了知识图谱的研究中。福尔摩斯说过：“一个逻辑学家，不需要亲眼见过，或听过大西洋和尼亚加拉大瀑布，他从一滴水中就能推测出它们。知识图谱就像福尔摩斯破案一样，首先需要采集散布在各个角落的碎片化信息和数据，然后把它按标准化思考方式整理，再将各个看似不相关但背后有着共同联系的信息关联起来挖掘背后的规律，据此做深入的推理。2012年，Google率先在自己的搜索引擎中加入了知识图谱，当用户查询关键词的时候，不仅能够得到相关网页，还可以得到更多与查询词相关的其他信息。从技术的角度来说，知识图谱是一个由数据到信息再到知识，最后转化为智慧的过程。知识图谱技术包括以下三个方面的研究内容:1)知识表示:研究客观世界知识的建模，以方便机器识别和理解，既要考虑知识的表示与存储，又要考虑知识的使用和计算；2)知识图谱构建:解决如何建立计算机算法从客观世界或者互联网的各种数据资源中获取客观世界的知识，主要研究使用何种数据和方法抽取何种知识；3)知识图谱应用:主要研究如何利用知识图谱建立基于知识的智能服务系统，更好地解决实际应用问题。知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。在关注到知识图谱在自然语言处理、人工智能等领域展现巨大潜力的同时，...

【技术保护点】
1.一种结合知识图谱和文本信息的相关公司挖掘方法，其特征在于结合知识图谱和文本信息的相关公司挖掘包括有：深度学习关系抽取模块(1)：通过样本接口从样本库中提取公司的相关文本输入预训练的end‑to‑end神经网络模型，输出文本中所有实体及相关关系的三元组；知识库关系提取模块(2)：提取公司间特殊实体的相关关系，如公司间类似的经营范围，用户群体；将其当作知识图谱特殊的边参与到PRA的计算中；这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强，增强了预测的可靠性；PRA训练模块(3)：在起始点公司A处，遍历限定集中的每一个实体，若存在关系，则标记为1；若不存在，则标记为0；这样从A开始，就产生了一条短路径，然后将其与对应的权重θ相乘，并将起点和终点相同的路径得分相加，得到一个score；依此类推，得到不同终点对应的所有路径的score；最高的score代表的路径则表达了公司间的关系最强；然后用深度学习抽取的公司间的关系作为PRA训练时的标签，对路径进行人工划分，作为对公司间潜在关系的推理，最终得到一个公司关系的分类模型；而公司间的关系不止一种，竞争对手、合作伙伴、上下...

【技术特征摘要】
1.一种结合知识图谱和文本信息的相关公司挖掘方法，其特征在于结合知识图谱和文本信息的相关公司挖掘包括有：深度学习关系抽取模块(1)：通过样本接口从样本库中提取公司的相关文本输入预训练的end-to-end神经网络模型，输出文本中所有实体及相关关系的三元组；知识库关系提取模块(2)：提取公司间特殊实体的相关关系，如公司间类似的经营范围，用户群体；将其当作知识图谱特殊的边参与到PRA的计算中；这样相当于是对知识图谱表达的实体关系所预测的公司间的关系这一过程做了加强，增强了预测的可靠性；PRA训练模块(3)：在起始点公司A处，遍历限定集中的每一个实体，若存在关系，则标记为1；若不存在，则标记为0；这样从A开始，就产生了一条短路径，然后将其与对应的权重θ相乘，并将起点和终点相同的路径得分相加，得到一个score；依此类推，得到不同终点对应的所有路径的score；最高的score代表的路径则表达了公司间的关系最强；然后用深度学习抽取的公司间的关系作为PRA训练时的标签，对路径进行人工划分，作为对公司间潜在关系的推理，最终得到一个公司关系的分类模型；而公司间的关系不止一种，竞争对手、合作伙伴、上下游、持股、控股都是属于公司间的关系；每种关系需要单独训练一个PRA路径的权重分布，然后将各个关系作为参数放入模型；PRA预测模块(4)：输入公司A和公司B通过PRA模型后通过计算score会得到一条路径；将这条路径与训练时学习到规则进行比对，看这条路径属于哪一种关系类型；由于PRA训练模块已经完成了根据路径进行关系推理的过程，因此在预测时直接输出推理结果；若给出公司A及关系R，则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布，并将所有与A有关的公司输入模型，最终得分最高的公司与A存在关系R的概率最高；模型库管理模块(5):在deep-learning抽取实体及实体关系三元组时，需要从模型库中导入end-to-end的神经网络模型；PRA训练模块中训练好的PRA模型也需要及时存入模型库，在预测的时候调取；模型库中有针对不同领域训练好的深度学习模型集合，根据需要调取不同的end-to-end模型；训练的PRA模型也需要及时更新；用户反馈模块(6)：对于预测的公司关系通过用户反馈接口接受用户的反馈；如果预测错误，管理员审核后可以进行纠错，再将纠错后的公司关系重新输入model进行训练，这样形成一个model迭代的过程，能进一步提高预测的准确率；结合知识图谱和文本信息的相关公司挖掘方法是：上述六个模块中，深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入，并作为整个模型的输入，放入PRA模块进行训练及预测，预测的结果进入用户反馈模块进行用户纠错反馈。2.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法，其特征在于，end-to-end模型采用了LSTM-RC的联合模型，不同于流水线式的命名实体识别-关系抽取模型，其采用了参数共享，充分利用了命名实体识别和关系抽取之间的联系信息，抽取的效果也更好，end-to-end不需对文本做其他的处理即可得到实体关系三元组，有利于知识图谱的快速构建。3.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法，其特征在于，在用PRA计算两个公司的之间的关系时，在联系两个公司的实体之间也会有相关关系，这些相关关系连接起来形成一条A公司通往B公司的路径，同时，A’和B’之间的路径可能不止一条，此时需要将所有出现的路径综合考虑；对路径的知识表示，即得到两个公司的直接关系，就是关系推理的过程；而直接关系又是通过deep-learning抽取出来；因此，将DL抽取出来的各个关系作为各个权重分布的laebl，将各个路径所对应的短路径作为特征，训练特征的权重分布，即可得到各个关系种类的PRA训练模型；每个关系种类对应一个权重分布，并将关系种类放入列表中作为参数供预测时提取；另外，输入公司A和关系，在知识图谱中得到所有与A存在这种关系的公司B，以公司A为起点，通过PRA计算，从A公司随机游走，通过限定集中的实体，会产生一定数量的游走路径，将每一段路径其乘以对应的θ，可得每条路径的score，score的高低代表了关系的紧密程度，按score的排序输出所有与A有关的公司B。4.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法，其特征在于，对新输入的公司A’和B’，要预测它们之间的关系，只需把其对应在知识图谱中的限定集及文本输入训练好的PRA模型，得到最终的path，将其与PRA训练模块中学到的...

【专利技术属性】
技术研发人员：龙世增，蔡瑞初，毕辉，李楠，
申请(专利权)人：广州初星科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人