一种主题词的挖掘方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22166866 阅读:51 留言:0更新日期:2019-09-21 10:33
本发明专利技术实施例公开了一种主题词的挖掘方法、装置、电子设备及存储介质。所述方法包括:接收用户输入的查询词,并在预先确定的主题图谱中获取所述查询词对应的至少一个原始主题词;在预先获取的与所述查询词相匹配的全部资讯素材中,通过主题判别模型确定出全部原始主题词对应的基础资讯素材召回集;其中,所述基础资讯素材召回集中包括至少一个基础资讯素材;在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集;其中,所述目标主题词召回集中包括至少一个目标主题词。可以挖掘出更多且更有写作价值的主题词,从而可以帮助用户迅速地选择出合适的关注点,在最短的时间内创作出更加优质的文章。

A Method, Device, Electronic Equipment and Storage Medium for Mining Theme Words

【技术实现步骤摘要】
一种主题词的挖掘方法、装置、电子设备及存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种主题词的挖掘方法、装置、电子设备及存储介质。
技术介绍
在资讯获取越发碎片化的时代,引人入胜的高质量内容,在资讯信息流应用和产品上,仍然是非常稀缺的。如何能源源不断地创作出人民群众喜闻乐见的资讯内容,在信息爆炸的时代,洞悉用户真正所求,在最短的时间让用户接受最优质的信息推送,是每个内容创作者的愿景。以微博、微信、百家号等为首的自媒体平台为例,用户可以依据自身的行业、兴趣和爱好在自媒体平台上进行写作,提供给其他用户进行浏览。在目前的自媒体平台中,在用户进行写作时可以对其进行写作引导。在目前的写作引导方法中,通常基于主题词的推荐帮助用户选择合适的切入点。主题词是一篇文章所表达的中心思想,主题词挖掘是有效解决文档空间向量高维稀疏性,提高文本分类质量的重要手段,同时也在信息推荐中起到了重要的作用。例如,用户在撰写一篇文章时,可以先接收用户输入的查询词,然后根据该查询词在历史记录中筛选出与查询词相关的词语,将其作为推荐给用户的主题词。在实现本专利技术的过程中,专利技术人发现现有技术中至少存在如下问题:首先,由于历史记录中的信息较少,缺乏全网资讯的完整信息,所以在历史记录中筛选出与查询词相关的词语的较少,导致推荐给用户的主题词较为局限;其次,查询词与主题词之间的关系较为简单,导致推荐给用户的主题词较为单一;再者,基于历史记录筛选出的主题词可能不存在写作价值,无法达到写作引导的效果。
技术实现思路
有鉴于此,本专利技术实施例提供一种主题词的挖掘方法、装置、电子设备及存储介质,可以挖掘出更多且更有写作价值的主题词,从而可以帮助用户迅速地选择出合适的关注点,在最短的时间内创作出更加优质的文章。第一方面,本专利技术实施例提供了一种主题词的挖掘方法,所述方法包括:接收用户输入的查询词,并在预先确定的主题图谱中获取所述查询词对应的至少一个原始主题词;在预先获取的与所述查询词相匹配的全部资讯素材中,通过主题判别模型确定出全部原始主题词对应的基础资讯素材召回集;其中,所述基础资讯素材召回集中包括至少一个基础资讯素材;在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集;其中,所述目标主题词召回集中包括至少一个目标主题词。在上述实施例中,所述在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集,包括:通过主题抽取模型在各个基础资讯素材中抽取出与其对应的目标主题词;通过所述主题抽取模型标记出各个目标主题词与其所在的基础资讯素材的边关系;其中,所述边关系包括:篇章边关系、标题边关系和正文边关系;根据各个目标主题词与其所在的基础资讯素材的边关系以及预先确定的各个目标主题词在其所在的基础资讯素材中的词频,对各个目标主题词与其所在的基础资讯素材的紧密程度进行打分;根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,确定出所述目标主题词召回集。在上述实施例中,所述根据各个目标主题词与其所在的基础资讯素材的边关系以及预先确定的各个目标主题词在其所在的基础资讯素材中的词频,对各个目标主题词与其所在的基础资讯素材的紧密程度进行打分,包括:根据各个目标主题词与其所在的基础资讯素材的边关系,确定出各个目标主题词对应的边关系权重值;根据各个目标主题词在其所在的基础资讯素材中的标题中的词频和正文中的词频,确定出各个目标主题词对应的标题词频权重值和正文词频权重值;根据各个目标主题词对应的边关系权重值以及各个目标主题词对应的标题词频权重值和正文词频权重值,计算出各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果。在上述实施例中,所述根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,确定出所述目标主题词召回集,包括:若各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果低于设定阈值,则将各个目标主题词在所述目标主题词召回集中删除;若各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果高于或者等于所述设定阈值,则将各个目标主题词保留在所述目标主题词召回集中。在上述实施例中,所述方法还包括:根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,按照分数由高到低的顺序将所述目标主题词召回集中的全部目标主题词进行排序。在上述实施例中,所述方法还包括:根据各个目标主题词生成与其对应的语义向量;计算每相邻两个目标主题词对应的语义向量之间的距离;若所述每相邻两个目标主题词对应的语义向量之间的距离小于预先设定的距离阈值,将所述每相邻两个目标主题词中的其中一个目标主题词在所述目标主题词召回集中删除。第二方面,本专利技术实施例提供了一种主题词的挖掘装置,所述装置包括:获取模块、确定模块和挖掘模块;其中,所述获取模块,用于接收用户输入的查询词;并在预先确定的主题图谱中获取所述查询词对应的至少一个原始主题词;所述确定模块,用于在预先获取的与所述查询词相匹配的全部资讯素材中,通过主题判别模型确定出全部原始主题词对应的基础资讯素材召回集;其中,所述基础资讯素材召回集中包括至少一个基础资讯素材;所述挖掘模块,用于在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集;其中,所述目标主题词召回集中包括至少一个目标主题词。在上述实施例中,所述挖掘模块包括:抽取子模块、打分子模块和确定子模块;其中,所述抽取子模块,用于通过主题抽取模型在各个基础资讯素材中抽取出与其对应的目标主题词;所述打分子模块,用于通过所述主题抽取模型标记出各个目标主题词与其所在的基础资讯素材的边关系;其中,所述边关系包括:篇章边关系、标题边关系和正文边关系;根据各个目标主题词与其所在的基础资讯素材的边关系以及预先确定的各个目标主题词在其所在的基础资讯素材中的词频,对各个目标主题词与其所在的基础资讯素材的紧密程度进行打分;所述确定子模块,用于根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,确定出所述目标主题词召回集。在上述实施例中,所述打分子模块,具体用于根据各个目标主题词与其所在的基础资讯素材的边关系,确定出各个目标主题词对应的边关系权重值;根据各个目标主题词在其所在的基础资讯素材中的标题中的词频和正文中的词频,确定出各个目标主题词对应的标题词频权重值和正文词频权重值;根据各个目标主题词对应的边关系权重值以及各个目标主题词对应的标题词频权重值和正文词频权重值,计算出各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果。在上述实施例中,所述确定子模块,具体用于若各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果低于设定阈值,则将各个目标主题词在所述目标主题词召回集中删除;若各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果高于或者等于所述设定阈值,则将各个目标主题词保留在所述目标主题词召回集中。在上述实施例中,所述确定子模块,还用于根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,按照分数由高到低的顺序将所述目标主题词召回集中的全部目标主题词进行排序。在上述实施例中,所述挖掘模块还包括:去重子模块,用于根据各个目标主题词生成与其对应的语义向量;计算每相邻两个目标主题词对应的语义向量之间的距离;若所述每相邻本文档来自技高网...

【技术保护点】
1.一种主题词的挖掘方法,其特征在于,所述方法包括:接收用户输入的查询词,并在预先确定的主题图谱中获取所述查询词对应的至少一个原始主题词;在预先获取的与所述查询词相匹配的全部资讯素材中,通过主题判别模型确定出全部原始主题词对应的基础资讯素材召回集;其中,所述基础资讯素材召回集中包括至少一个基础资讯素材;在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集;其中,所述目标主题词召回集中包括至少一个目标主题词。

【技术特征摘要】
1.一种主题词的挖掘方法,其特征在于,所述方法包括:接收用户输入的查询词,并在预先确定的主题图谱中获取所述查询词对应的至少一个原始主题词;在预先获取的与所述查询词相匹配的全部资讯素材中,通过主题判别模型确定出全部原始主题词对应的基础资讯素材召回集;其中,所述基础资讯素材召回集中包括至少一个基础资讯素材;在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集;其中,所述目标主题词召回集中包括至少一个目标主题词。2.根据权利要求1所述的方法,其特征在于,所述在所述基础资讯素材召回集合中,挖掘出全部原始主题词对应的目标主题词召回集,包括:通过主题抽取模型在各个基础资讯素材中抽取出与其对应的目标主题词;通过所述主题抽取模型标记出各个目标主题词与其所在的基础资讯素材的边关系;其中,所述边关系包括:篇章边关系、标题边关系和正文边关系;根据各个目标主题词与其所在的基础资讯素材的边关系以及预先确定的各个目标主题词在其所在的基础资讯素材中的词频,对各个目标主题词与其所在的基础资讯素材的紧密程度进行打分;根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,确定出所述目标主题词召回集。3.根据权利要求2所述的方法,其特征在于,所述根据各个目标主题词与其所在的基础资讯素材的边关系以及预先确定的各个目标主题词在其所在的基础资讯素材中的词频,对各个目标主题词与其所在的基础资讯素材的紧密程度进行打分,包括:根据各个目标主题词与其所在的基础资讯素材的边关系,确定出各个目标主题词对应的边关系权重值;根据各个目标主题词在其所在的基础资讯素材中的标题中的词频和正文中的词频,确定出各个目标主题词对应的标题词频权重值和正文词频权重值;根据各个目标主题词对应的边关系权重值以及各个目标主题词对应的标题词频权重值和正文词频权重值,计算出各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果。4.根据权利要求2所述的方法,其特征在于,所述根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,确定出所述目标主题词召回集,包括:若各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果低于设定阈值,则将各个目标主题词在所述目标主题词召回集中删除;若各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果高于或者等于所述设定阈值,则将各个目标主题词保留在所述目标主题词召回集中。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:根据各个目标主题词与其所在的基础资讯素材的紧密程度的打分结果,按照分数由高到低的顺序将所述目标主题词召回集中的全部目标主题词进行排序。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据各个目标主题词生成与其对应的语义向量;计算每相邻两个目标主题词对应的语义向量之间的距离;若所述每相邻两个目标主题词对应的语义向量之间的距离小于预先设定的距离阈值,将所述每相邻两个目标主题词中的其中一个目标主题词在所述目标主题词召回集中删除。7.一种主题词的挖掘装置,其特征在于,所述装置包括:获取模块、确定模块和挖掘模块;其中,所述获取模块,用于接收用户输入的查询词;并在预先...

【专利技术属性】
技术研发人员:蔡远俊郑烨翰盛广智
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1