用于生成信息的方法和装置制造方法及图纸

技术编号:17779951 阅读:33 留言:0更新日期:2018-04-22 08:35
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取待挖掘文章;利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度;基于所挖掘主题和所确定的关联度,确定所述待挖掘文章的主题以及所述待挖掘文章与主题的关联度。该实施方式实现了从不同维度对待挖掘文章的主题进行挖掘,以获得更全面、准确地主题。

【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及用于生成信息的方法和装置。
技术介绍
现阶段,互联网是人们获取信息的一种重要方式,为了精准的向用户推荐其感兴趣的文章,需要精准的理解文章的主题,同时计算出文章与主题的关联度。目前,可以通过文章关键词提取的方式生成文章的主题,例如,首先,对文章全文切词,得到词集合;之后,对词集合进行过滤、词频计算等,并将得到的词集合中的关键词作为文章主题挖掘的结果,这种主题挖掘方式的精准度容易受到词语切分、别名等因素的影响。目前,还可以通过文章主题分类的方式生成文章的主题,例如,对文章中的语句提取词向量特征,进行文章分类获得文章主题,使用这种主题挖掘方式进行主题挖掘容易受候选主题集合的限制,比如,如果用来分类的候选主题集合很小,且候选主题都比较宽泛,那么会造成主题挖掘范围有限,不能全面、精准表达文章。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面,本申请实施例提供了一种用于生成信息的方法,包括:获取待挖掘文章;利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度;基于所挖掘主题和所确定的关联度,确定上述待挖掘文章的主题以及上述待挖掘文章与主题的关联度。在一些实施例中,上述利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度,包括:对上述待挖掘文章进行命名实体识别,基于命名实体识别结果确定上述待挖掘文章是否包括至少一个第一类型文章主题;响应于确定上述待挖掘文章包括至少一个第一类型文章主题,确定上述待挖掘文章与上述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度。在一些实施例中,对上述待挖掘文章进行命名实体识别,基于命名实体识别结果确定上述待挖掘文章是否包括至少一个第一类型文章主题,包括:对上述待挖掘文章进行命名实体识别,确定上述待挖掘文章中是否包含至少一个命名实体;响应于确定上述待挖掘文章中包含至少一个命名实体,将上述至少一个命名实体中的各个命名实体与预先建立的候选主题集合中的候选主题进行匹配,根据匹配结果确定上述待挖掘文章中是否包括至少一个候选主题,其中,上述候选主题集合是基于知识图谱构建的;响应于确定上述待挖掘文章中包括至少一个候选主题,对于上述至少一个候选主题中的每一个候选主题,统计该候选主题在上述待挖掘文章中出现的频次,如果该候选主题在上述待挖掘文章中出现的频次超过预先设定的第一阈值,则确定该候选主题为上述待挖掘文章的第一类型文章主题。在一些实施例中,上述响应于确定上述待挖掘文章包括至少一个第一类型文章主题,确定上述待挖掘文章与上述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度,包括:对于上述至少一个第一类型文章主题中的每一个第一类型文章主题,统计该第一类型文章主题在上述待挖掘文章中出现的频次,根据统计得到的频次确定上述待挖掘文章与该第一类型文章主题的第一关联度。在一些实施例中,统计该候选主题在上述待挖掘文章中出现的频次,包括:根据上述知识图谱确定上述待挖掘文章中是否包含该候选主题的别名;响应于确定上述待挖掘文章中包含该候选主题的别名,统计该候选主题的别名在上述待挖掘文章中出现的第一频次;统计该候选主题在上述待挖掘文章中出现的第二频次;计算上述第一频次和上述第二频次之和,将计算结果作为该候选主题在上述待挖掘文章中出现的频次。在一些实施例中,上述利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度,包括:确定上述待挖掘文章的来源信息的来源置信度是否超过预先设定的置信度阈值,其中,上述待挖掘文章的来源信息的来源置信度是从预先设定的来源信息与来源置信度关系表中获取的,上述来源信息与来源置信度关系表对应存储有来源信息和来源置信度;响应于确定上述待挖掘文章的来源信息的来源置信度超过预先设定的置信度阈值,将上述待挖掘文章的来源信息作为第二类型文章主题,并将上述待挖掘文章的来源信息的来源置信度作为上述待挖掘文章与上述第二类型文章主题的第二关联度。在一些实施例中,上述利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度,包括:对上述待挖掘文章进行分词处理,得到至少一个分词;将上述至少一个分词导入预先建立的主题分类模型,得出上述待挖掘文章属于预设第三类型候选文章主题集合中各第三类型候选文章主题的概率;基于上述待挖掘文章属于上述第三类型候选文章主题集合中各第三类型候选文章主题的概率确定上述待挖掘文章的第三类型文章主题,以及上述待挖掘文章与确定的第三类型文章主题的第三关联度。在一些实施例中,上述主题分类模型为深度神经网络;以及上述方法还包括建立上述深度神经网络的步骤,包括:对样本文章进行分词处理,得到至少一个样本分词;对上述至少一个样本分词进行过滤处理得到上述样本文章的样本分词集合;将上述样本分词集合作为输入,将预先设定的上述样本文章的主题作为输出,训练初始深度神经网络,得到上述深度神经网络。在一些实施例中,基于所挖掘主题和所确定的关联度,确定上述待挖掘文章的主题以及上述待挖掘文章与主题的关联度,包括:当所挖掘主题包括至少两种类型的主题时,对于上述至少两种类型的主题中的每一种类型的主题,将上述待挖掘文章与该类型的主题的关联度进行归一化处理,并对归一化处理后的关联度进行加权处理。在一些实施例中,上述方法还包括:响应于确定目标关键词与上述待挖掘文章的主题匹配,推送上述待挖掘文章。第二方面,本申请实施例提供了一种用于生成信息的装置,包括:获取单元,用于获取待挖掘文章;挖掘单元,用于利用至少两种主题挖掘方式,挖掘上述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与上述待挖掘文章的关联度;确定单元,用于基于所挖掘主题和所确定的关联度,确定上述待挖掘文章的主题以及上述待挖掘文章与主题的关联度。在一些实施例中,上述挖掘单元包括:识别子单元,用于对上述待挖掘文章进行命名实体识别,基于命名实体识别结果确定上述待挖掘文章是否包括至少一个第一类型文章主题;第一确定子单元,用于响应于确定上述待挖掘文章包括至少一个第一类型文章主题,确定上述待挖掘文章与上述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度。在一些实施例中,上述识别子单元包括:识别和确定单元,用于对上述待挖掘文章进行命名实体识别,确定上述待挖掘文章中是否包含至少一个命名实体;匹配和确定单元,用于响应于确定上述待挖掘文章中包含至少一个命名实体,将上述至少一个命名实体中的各个命名实体与预先建立的候选主题集合中的候选主题进行匹配,根据匹配结果确定上述待挖掘文章中是否包括至少一个候选主题,其中,上述候选主题集合是基于知识图谱构建的;统计和确定单元,用于响应于确定上述待挖掘文章中包括至少一个候选主题,对于上述至少一个候选主题中的每一个候选主题,统计该候选主题在上述待挖掘文章中出现的频次,如果该候选主题在上述待挖掘文章中出现的频次超过预先设定的第一阈值,则确定该候选主题为上述待挖掘文章的第一类型文章主题。在一些实施例中,上述第一确定子单元进一步本文档来自技高网...
用于生成信息的方法和装置

【技术保护点】
一种用于生成信息的方法,包括:获取待挖掘文章;利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度;基于所挖掘主题和所确定的关联度,确定所述待挖掘文章的主题以及所述待挖掘文章与主题的关联度。

【技术特征摘要】
1.一种用于生成信息的方法,包括:获取待挖掘文章;利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度;基于所挖掘主题和所确定的关联度,确定所述待挖掘文章的主题以及所述待挖掘文章与主题的关联度。2.根据权利要求1所述的方法,其中,所述利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度,包括:对所述待挖掘文章进行命名实体识别,基于命名实体识别结果确定所述待挖掘文章是否包括至少一个第一类型文章主题;响应于确定所述待挖掘文章包括至少一个第一类型文章主题,确定所述待挖掘文章与所述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度。3.根据权利要求2所述的方法,其中,对所述待挖掘文章进行命名实体识别,基于命名实体识别结果确定所述待挖掘文章是否包括至少一个第一类型文章主题,包括:对所述待挖掘文章进行命名实体识别,确定所述待挖掘文章中是否包含至少一个命名实体;响应于确定所述待挖掘文章中包含至少一个命名实体,将所述至少一个命名实体中的各个命名实体与预先建立的候选主题集合中的候选主题进行匹配,根据匹配结果确定所述待挖掘文章中是否包括至少一个候选主题,其中,所述候选主题集合是基于知识图谱构建的;响应于确定所述待挖掘文章中包括至少一个候选主题,对于所述至少一个候选主题中的每一个候选主题,统计该候选主题在所述待挖掘文章中出现的频次,如果该候选主题在所述待挖掘文章中出现的频次超过预先设定的第一阈值,则确定该候选主题为所述待挖掘文章的第一类型文章主题。4.根据权利要求3所述的方法,其中,所述响应于确定所述待挖掘文章包括至少一个第一类型文章主题,确定所述待挖掘文章与所述至少一个第一类型文章主题中各个第一类型文章主题的第一关联度,包括:对于所述至少一个第一类型文章主题中的每一个第一类型文章主题,统计该第一类型文章主题在所述待挖掘文章中出现的频次,根据统计得到的频次确定所述待挖掘文章与该第一类型文章主题的第一关联度。5.根据权利要求4所述的方法,其中,统计该候选主题在所述待挖掘文章中出现的频次,包括:根据所述知识图谱确定所述待挖掘文章中是否包含该候选主题的别名;响应于确定所述待挖掘文章中包含该候选主题的别名,统计该候选主题的别名在所述待挖掘文章中出现的第一频次;统计该候选主题在所述待挖掘文章中出现的第二频次;计算所述第一频次和所述第二频次之和,将计算结果作为该候选主题在所述待挖掘文章中出现的频次。6.根据权利要求1所述的方法,其中,所述利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度,包括:确定所述待挖掘文章的来源信息的来源置信度是否超过预先设定的置信度阈值,其中,所述待挖掘文章的来源信息的来源置信度是从预先设定的来源信息与来源置信度关系表中获取的,所述来源信息与来源置信度关系表对应存储有来源信息和来源置信度;响应于确定所述待挖掘文章的来源信息的来源置信度超过预先设定的置信度阈值,将所述待挖掘文章的来源信息作为第二类型文章主题,并将所述待挖掘文章的来源信息的来源置信度作为所述待挖掘文章与所述第二类型文章主题的第二关联度。7.根据权利要求1所述的方法,其中,所述利用至少两种主题挖掘方式,挖掘所述待挖掘文章的至少两种类型的主题,并确定所挖掘主题与所述待挖掘文章的关联度,包括:对所述待挖掘文章进行分词处理,得到至少一个分词;将所述至少一个分词导入预先建立的主题分类模型,得出所述待挖掘文章属于预设第三类型候选文章主题集合中各第三类型候选文章主题的概率;基于所述待挖掘文章属于所述第三类型候选文章主题集合中各第三类型候选文章主题的概率确定所述待挖掘文章的第三类型文章主题,以及所述待挖掘文章与确定的第三类型文章主题的第三关联度。8.根据权利要求7所述的方法,其中,所述主题分类模型为深度神经网络;以及所述方法还包括建立所述深度神经网络的步骤,包括:对样本文章进行分词处理,得到至少一个样本分词;对所述至少一个样本分词进行过滤处理得到所述样本文章的样本分词集合;将所述样本分词集合作为输入,将预先设定的所述样本文章的主题作为输出,训练初始深度神经网络,得到所述深度神经网络。9.根据权利要求1所述的方法,其中,基于所挖掘主题和所确定的关联度,确定所述待挖掘文章的主题以及所述待挖掘文章与主题的关联度,包括:当所挖掘主题包括至少两种类型的主题时,对于所述至少两种类型的主题中的每一种类型的主题,将所述待挖掘文章与该类型的主题的关联度进行归一化处理,并对归一化处理后的关联度进行加权处理。10.根据权利要求1所述的方法,其中,所述方法还包括:响应于确定目标关键词...

【专利技术属性】
技术研发人员:张晓寒李双婕史亚冰梁海金张扬李京峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1