基于主题的知识库构建方法、存储介质及电子设备技术

技术编号:38261261 阅读:13 留言:0更新日期:2023-07-27 10:21
本发明专利技术涉及知识库领域,具体公开了一种基于主题的知识库构建方法、存储介质及电子设备,该基于主题的知识库构建方法包括:获取文档集数据,其中,文档集中包括属于同一组织的多篇文档;基于自然语言处理技术对每个文档进行词语预处理,并将词语处理结果转化为主题实体,其中,主题实体存储在主题实体库;抽取主题实体库中各个主题实体之间的关联关系以形成知识图谱,并将知识图谱存储至图谱数据库;利用图谱数据库中存储的知识图谱构建文档知识库。本发明专利技术解决了现有知识库构建存在分类正确率低,不利于关联融合的技术问题。不利于关联融合的技术问题。不利于关联融合的技术问题。

【技术实现步骤摘要】
基于主题的知识库构建方法、存储介质及电子设备


[0001]本专利技术涉及知识库的
,具体而言,涉及一种基于主题的知识库构建方法、存储介质及电子设备。

技术介绍

[0002]企业知识库是企业认知大脑的基础,核心价值是作为知识中枢,提高认知、决策的效率,对于推进企业业务的增长非常重要。知识是一切文明的根源,对于企业的发展壮大,知识是必不可少的。如何管理运营好企业知识库是关键,通过建立企业知识库,进行信息和知识资产的保存、积累,加快信息和知识在企业内部的流通,实现企业内部的知识共享。
[0003]传统的知识库建立,对于不同部门不同领域的非结构化文本,大多依据人工经验构建知识分类体系,对于存量和增量以先验预判知识的类别将各类知识文档进行归类。通过人为分类建立的知识库耗时耗力,分类很可能并不准确,同时人为分类多以高屋建瓴的抽象概念为主导,知识分类单一化,不利于后期各个领域之间的知识进行关联挖掘和融合构建。也就是说,现有的依据人工经验构建的知识库存在知识分类正确率低,不利于知识沉淀以及知识关联挖掘融合的问题。
[0004]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种基于主题的知识库构建方法、存储介质及电子设备,以至少解决现有知识库构建存在分类正确率低,不利于关联融合的技术问题。
[0006]根据本专利技术实施例的一个方面,提供了一种基于主题的知识库构建方法,包括:获取文档集数据,其中,上述文档集中包括属于同一组织的多篇文档;基于自然语言处理技术对每个文档进行词语预处理,并将词语处理结果转化为主题实体,其中,上述主题实体存储在主题实体库;抽取上述主题实体库中各个主题实体之间的关联关系以形成知识图谱,并将上述知识图谱存储至图谱数据库;利用上述图谱数据库中存储的知识图谱构建文档知识库。
[0007]可选的,上述基于自然语言处理技术对每个文档进行词语预处理,包括:基于自然语言处理技术,对上述每个文档依次进行停用词处理、词性标注和分词处理。
[0008]可选的,上述将词语处理结果转化为主题实体,包括:计算分词处理得到中每个文档分词的词概率;将词概率超过预设概率阈值的文档分词作为上述主题实体。
[0009]可选的,在将词语处理结果转化为主题实体之前,还包括:利用LDA模型构建上述主题实体库,其中,上述主题实体库中存储有主题

单词概率分布矩阵和文档

主题概率分布矩阵。
[0010]可选的,上述抽取上述主题实体库中各个主题实体之间的关联关系以形成知识图谱,包括:根据从文档转化得到的主题,基于上述文档

主题概率分布矩阵和上述主题

单词概率分布矩阵,依次抽取上述文档与上述主题的相关度和上述主题与单词的相关度;根据
上述文档与上述主题的相关度和上述主题与单词的相关度确定上述文档与上述单词的相关度,以基于上述文档、上述主题与上述单词的三元关系形成知识图谱。
[0011]可选的,在构建文档知识库之后,还包括:在接收到同一组织的新文档时,在上述图谱数据库查找与上述新文档相关的目标主题;在上述图谱数据库中查找到上述目标主题的情况下,关联上述新文档与上述目标主题;在上述图谱数据库中未查找到上述目标主题的情况下,将上述新文档与上述目标主题、关联单词以及对应关系形成知识图谱并存储至上述图谱数据库。
[0012]可选的,在构建文档知识库之后,还包括:基于上述文档知识库计算第一文档与第二文档的相关度,其中,上述第一文档和上述第二文档均为上述文档知识库中的已有文档。
[0013]根据本专利技术实施例的另一方面,还提供了一种基于主题的知识库构建装置,包括:获取单元,用于获取文档集数据,其中,上述文档集中包括属于同一组织的多篇文档;预处理单元,用于基于自然语言处理技术对每个文档进行词语预处理,并将词语处理结果转化为主题实体,其中,上述主题实体存储在主题实体库;抽取单元,用于抽取上述主题实体库中各个主题实体之间的关联关系以形成知识图谱,并将上述知识图谱存储至图谱数据库;构建单元,用于利用上述图谱数据库中存储的知识图谱构建文档知识库。
[0014]根据本专利技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述基于主题的知识库构建方法。
[0015]根据本专利技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的基于主题的知识库构建方法。
[0016]在本专利技术实施例中,采用获取文档集数据,文档集中包括属于同一组织的多篇文档,基于自然语言处理技术对每个文档进行词语预处理,并将词语处理结果转化为主题实体,主题实体存储在主题实体库,抽取主题实体库中各个主题实体之间的关联关系以形成知识图谱,并将知识图谱存储至图谱数据库,利用图谱数据库中存储的知识图谱构建文档知识库的方式,通过文档集中文档的词语预处理,并转化为主题实体,基于抽取各个主题实体的关联关系形成知识图谱,利用知识图谱构建文档知识库,达到了利用主题对文档经处理,使得主题实体与文档紧密连接融合,形成知识图谱,进而充分利用知识图谱对语义关联关系的挖掘,对文档的准确分类的目的,从而实现了对文档进行准确分类,并打通文档间的知识分类隔阂的技术效果,进而解决了现有知识库构建存在分类正确率低,不利于关联融合的技术问题。
附图说明
[0017]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0018]图1是根据本专利技术实施例的一种可选的基于主题的知识库构建方法的流程示意图;
[0019]图2是根据本专利技术实施例的一种可选的LDA模型的生成过程示意图;
[0020]图3是根据本专利技术实施例的一种可选的基于主题的知识库构建方法的流程示意
图;
[0021]图4是根据本专利技术实施例的一种可选的基于主题的知识库构建装置的结构示意图;
[0022]图5是根据本专利技术实施例的一种可选的电子设备的结构示意图。
具体实施方式
[0023]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0024]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主题的知识库构建方法,其特征在于,包括:获取文档集数据,其中,所述文档集中包括属于同一组织的多篇文档;基于自然语言处理技术对每个文档进行词语预处理,并将词语处理结果转化为主题实体,其中,所述主题实体存储在主题实体库;抽取所述主题实体库中各个主题实体之间的关联关系以形成知识图谱,并将所述知识图谱存储至图谱数据库;利用所述图谱数据库中存储的知识图谱构建文档知识库。2.根据权利要求1所述的方法,其特征在于,所述基于自然语言处理技术对每个文档进行词语预处理,包括:基于自然语言处理技术,对所述每个文档依次进行停用词处理、词性标注和分词处理。3.根据权利要求2所述的方法,其特征在于,所述将词语处理结果转化为主题实体,包括:计算分词处理得到中每个文档分词的词概率;将词概率超过预设概率阈值的文档分词作为所述主题实体。4.根据权利要求1所述的方法,其特征在于,在将词语处理结果转化为主题实体之前,还包括:利用LDA模型构建所述主题实体库,其中,所述主题实体库中存储有主题

单词概率分布矩阵和文档

主题概率分布矩阵。5.根据权利要求4所述的方法,其特征在于,所述抽取所述主题实体库中各个主题实体之间的关联关系以形成知识图谱,包括:根据从文档转化得到的主题,基于所述文档

主题概率分布矩阵和所述主题

单词概率分布矩阵,依次抽取所述文档与所述主题的相关度和所述主题与单词的相关度;根据所述文档与所述主题的相关度和所述主题与单词的相关度确定所述文档与所述单词的相...

【专利技术属性】
技术研发人员:石蕊胡之才张云飞张鑫鑫
申请(专利权)人:航天科工网络信息发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1