基于知识图谱的领域知识推送方法技术

技术编号:28208324 阅读:31 留言:0更新日期:2021-04-24 14:40
本发明专利技术公开了一种基于知识图谱的领域知识推送方法,包括:收集领域知识文本构建文本知识库;针对知识库文本进行语义分析和主题建模;通过领域知识图谱嵌入获得节点的语义分布向量;依据用户任务描述、任务主题建立任务上下文特征;根据任务描述中的领域实体与知识图谱进行实体对齐,基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回;将召回文本与用户任务文本进行文本相似度计算获得候选文本得分;根据得分将排序结果文本推送给用户。本发明专利技术通过知识图谱的节点关联知识和图谱嵌入技术来提升领域知识推送的文本匹配度和用户体验。文本匹配度和用户体验。文本匹配度和用户体验。

【技术实现步骤摘要】
基于知识图谱的领域知识推送方法


[0001]本专利技术属于计算机应用技术,具体为一种基于知识图谱的领域知识推送方法。

技术介绍

[0002]在日益规模化的生产和激烈的服务竞争中,随着大规模的复杂业务系统不断出现,企业进行了大量业务知识管理,积累了海量丰富的系统管理知识。规模化的复杂系统必不可少的会出现诸多缺陷,需要经常进行规范化的系统检查和缺陷修复。但是目前现场检修作业一般都是通过工作人员的技术、经验积累来进行系统的排查,缺乏有效的实用化的智能支撑手段来帮助工作人员进行规范化的操作、快速获取系统故障相关知识以及相关资料的快速更新。
[0003]随着业务系统的不断发展,覆盖范围不断扩大,数量不断增加,网络架构不断升级,系统维护的复杂度不断提高。因此,在系统的维护过程中要求运维人员做到操作规范,处理方法符合要求。因此通过企业积累的领域知识构建一套体系化可操作的运维流程和指导业务操作流程的知识推送系统,提升整个维护工作的质量和效率的需求是十分必要的。
[0004]知识推送是依据一定的协议,自动从服务器中选择特定的与用户相关或用户感兴趣的信息,并通过一定的方式定期传送给用户以减少用户学习成本的一种技术。知识推送主要分三个阶段,用户数据采集阶段,数据加工阶段和推送阶段。它的主要思想是服务器根据获取到的用户的状态和意图主动向用户推送用户感兴趣的信息,并以此减少用户对信息的检索时间,同时根据用户目的和兴趣进行信息的筛选,帮助用户发掘有价值的信息,提高了用户获取信息的准确率和效率。现阶段各个行业都在相关领域进行系统中的知识推送技术的相关研究和实验。然而大多仍然采用的是面向开放世界的知识推荐类似的方法,诸如基于内容推荐、基于协同过滤、基于模型的方法。上述经典的理论方法通常采用系统收集的用户行为进行用户画像建模,通过物品特征建模、用户协同过滤策略来进行推荐。由于理论方法的不完善常导致冷启动,以及马太效应引起的推送内容局限死板等问题。
[0005]经典的推荐算法常服务于多种产品,各个形态信息的推荐,包括图片,音频,文字,视频,商品等,不适用于各行业或领域内的专业知识的推送。

技术实现思路

[0006]本专利技术提出了一种基于知识图谱的领域知识推送方法。
[0007]实现本专利技术目的的技术方案为:一种基于知识图谱的领域知识推送方法,具体步骤为:
[0008]步骤1、构建文本知识库,所述文本知识库由领域知识文本构成;
[0009]步骤2、针对知识库文本进行语义分析和主题建模;
[0010]步骤3、通过对领域知识图谱进行图嵌入式处理获得知识点的语义分布向量;
[0011]步骤4、依据用户任务描述、任务主题建立任务上下文特征向量;
[0012]步骤5、将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对
齐,基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回;
[0013]步骤6、将步骤5获得的召回文本与用户任务进行文本相似度计算,获得召回文本得分;
[0014]步骤7、根据得分将排序结果文本推送给用户;
[0015]步骤8、若用户任务结束则推送终止;当用户场景和状态变化时则重复步骤4至7。
[0016]优选地,文本知识库的构建方法为:按照领域任务需求进行知识范围确定,对内容进行筛选;对文本进行分句,过滤停用词;将最终的文本集合构建为文本知识库。
[0017]优选地,针对知识库文本进行语义分析的具体方法为:
[0018]将知识文本进行分词,采用无监督的WORD2VEC词嵌入算法对文本进行训练获取词的语义分布向量;
[0019]采用基于词向量加权和的方法计算文本句子的语义向量。
[0020]优选地,进行文本主题建模的具体方法为:
[0021]将知识库中的文本进行分词,根据分词结果对知识库中文本句子做词频统计,将词频低于预设阈值的文本进行词过滤;
[0022]对句子进行字符处理,获得知识库文本的BIGRAM字典并用于构建文本到对应词袋向量的映射表;
[0023]通过映射表获得知识库文本的词袋向量,将其作为LDA算法的输入进行训练,获得知识库文本的主题分布向量。
[0024]优选地,获取知识图谱节点语义分布向量的具体方法为:
[0025]步骤3.1、构建领域知识图谱,包括命名实体识别和关系抽取两个任务,采用基于BERT预训练模型进行有监督学习获得领域知识实体和实体间关系;
[0026]步骤3.2、获取图谱节点语义分布向量,通过图卷积神经网络对领域知识图谱中的节点拓扑进行学习,获得节点的语义分布向量。
[0027]优选地,建立任务上下文特征的具体方法为:
[0028]步骤4.1、将用户任务描述文本进行分词处理,利用步骤2训练的词向量进行任务描述的向量化表示,作为此项用户任务的一个语义特征;
[0029]步骤4.2、将用户任务主题中的实体进行抽取,利用步骤3训练的知识图谱节点语义分布向量获得运检任务关联的实体表示向量,作为此项用户任务的一个分类特征。
[0030]优选地,将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对齐,基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回的具体步骤为:
[0031]步骤5.1、根据用户任务实体获取任务描述和任务关联系统构件,在知识图谱上进行实体对齐操作获得图谱上对应任务实体的子图;
[0032]步骤5.2、计算步骤5.1中子图实体的嵌入向量,获得子图的三跳内各路径上实体节点的词嵌入向量;
[0033]步骤5.3、将图的各路径种实体节点进行关键路径扩展;
[0034]步骤5.4、将步骤4的用户任务上下文特征、任务实体的图嵌入向量、子图节点组合的嵌入向量作为初步的召回条件进行知识库文本过滤,获取任务关联节点知识粗精度的召回文本。
[0035]优选地,将步骤5获得的召回文本与用户任务进行文本相似度计算,获得召回文本得分的具体方法为:
[0036]步骤6.1、根据步骤2获得的文本知识库主题模型,分别计算召回文本和用户任务的主题分布向量;
[0037]步骤6.2、根据词移距离算法,对召回文本与任务描述进行字层面的相似度计算,获得召回文本的词移距离相似度得分;
[0038]步骤6.3、根据向量空间的余弦公式进行相似度计算获得召回文本主题的相似度得分;
[0039]步骤6.4、基于加权投票策略进行得分计算,根据任务对其中词移距离权重和主题相似度权重进行调整。
[0040]本专利技术与现有技术相比,其显著优点为:
[0041](1)本专利技术基于领域知识图谱,通过丰富的领域实体关联知识克服推荐系统马太效应,根据关联知识扩展推送知识的多样性;
[0042](2)本专利技术基于场景和用户任务建模,更有效捕捉任务的属性和特征,增强了对具体任务关联知识文本的区分能力,提升文本知识推送的准确度;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的领域知识推送方法,其特征在于,具体步骤为:步骤1、构建文本知识库,所述文本知识库由领域知识文本构成;步骤2、针对知识库文本进行语义分析和主题建模;步骤3、通过对领域知识图谱进行图嵌入式处理获得知识点的语义分布向量;步骤4、依据用户任务描述、任务主题建立任务上下文特征向量;步骤5、将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对齐,基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回;步骤6、将步骤5获得的召回文本与用户任务进行文本相似度计算,获得召回文本得分;步骤7、根据得分将排序结果文本推送给用户;步骤8、若用户任务结束则推送终止;当用户场景和状态变化时则重复步骤4至7。2.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,文本知识库的构建方法为:按照领域任务需求进行知识范围确定,对内容进行筛选;对文本进行分句,过滤停用词;将最终的文本集合构建为文本知识库。3.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,针对知识库文本进行语义分析的具体方法为:将知识文本进行分词,采用无监督的WORD2VEC词嵌入算法对文本进行训练获取词的语义分布向量;采用基于词向量加权和的方法计算文本句子的语义向量。4.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,进行文本主题建模的具体方法为:将知识库中的文本进行分词,根据分词结果对知识库中文本句子做词频统计,将词频低于预设阈值的文本进行词过滤;对句子进行字符处理,获得知识库文本的BIGRAM字典并用于构建文本到对应词袋向量的映射表;通过映射表获得知识库文本的词袋向量,将其作为LDA算法的输入进行训练,获得知识库文本的主题分布向量。5.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,获取知识图谱节点语义分布向量的具体方法为:步骤3.1、构建领域知识图谱,包括命名实体识别和关系抽取两个任务,采用基于BERT预训练模型进行有监督学习获得领...

【专利技术属性】
技术研发人员:李蔚清颜于升
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1