一种主题分层建模中主题词/序列的提取方法技术

技术编号:34176927 阅读:43 留言:0更新日期:2022-07-17 12:09
本发明专利技术公开了一种主题分层建模中主题词/序列的提取方法,包括:获取主题分层建模的模型输出;根据模型输出提取主题词/序列;展示主题的词/序列特征表示结果。本发明专利技术可以在挖掘层次化主题结构的过程中更好的表示主题,既体现了上下层级主题间的相关性,也凸显出了上下层级主题间的差异性和同层主题间的差异性,使主题不仅在结构上呈现出层次性,在表示上也体现了层次化。现了层次化。现了层次化。

【技术实现步骤摘要】
一种主题分层建模中主题词/序列的提取方法


[0001]本专利技术涉及主题词提取
,尤其涉及一种主题分层建模中主题词/序列的提取方法。

技术介绍

[0002]主题分层建模是指在主题建模过程中不仅挖掘主题集合,同时也挖掘出了主题之间的层级关系。主题挖掘结果最终是通过主题词/序列的形式来呈现给用户,一个主题的表示直接决定着用户对这个主题的理解和把控。常规的主题词/序列的提取方法有c

tf

idf、TextRank、计算词/序列频次、基于语义相似性选取top

n词/序列等。不同于单层主题表示,分层主题表示既要体现上下层级主题间的相关性,也要凸显出上下层级主题间的差异性和同层主题间的差异性。无论使用哪种方法来提取分层主题的词/序列都无法兼顾相关性和差异性,例如:
[0003]1)c

tf

idf:该方法提取的主题词/序列无法体现上下层级主题间的相关性;
[0004]2)计算词/序列频次、TextRank、基于语义相似性选取top...

【技术保护点】

【技术特征摘要】
1.一种主题分层建模中主题词/序列的提取方法,其特征在于,包括:A、获取主题分层建模的模型输出;B、根据模型输出提取主题词/序列;C、展示主题的词/序列特征表示结果。2.如权利要求1所述的主题分层建模中主题词/序列的提取方法,其特征在于,所述A主要包括获取已经挖掘好的分层主题结果,包括主题间的层级关系和主题对应文献集合。3.如权利要求1所述的主题分层建模中主题词/序列的提取方法,其特征在于,所述B具体包括:提取根节点下所有子节点的主题词/序列,以及提取非根节点子节点的主题词/序列。4.如权利要求3所述的主题分层建模中主题词/序列的提取方法,其特征在于,根节点下子节点主题词/序列的提取包括:计算每个主题对应文献集合的词/序列频次,并倒序排列;取top_n个词/序列作为该主题的词/序列;输出提取的主题的词/序列。5.如权利要求3所述的主题分层建模中主题词/序列的提取方法,其特征在于,所述非根节点子节点主题词/序列的提取包括:计算词/序列频次并倒序提取主题特征;根据c

tf

idf提取主题特征;提取主题的词/序列;输出主题的词/序列。6.如权利要求5所述的主题分层建模中主题词/序列的提取方法,其...

【专利技术属性】
技术研发人员:冯晓燕吴晨
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1