一种基于主题模型的主题检索方法技术

技术编号：21432151 阅读：17 留言：0更新日期：2019-06-22 11:54

本发明专利技术公开了一种基于主题模型的主题检索方法，将分词后的文章集作为训练数据并输入LDA主题模型参数。训练LDA模型，对每个词概率分布中的概率最高的前n个词作为查询语句中的关键词，其概率等比映射到查询语句中关键词的权重；在每个词中间添加“OR”关键字形成查询语句。业务人员，运营人员或者专家通过观察生成的每个查询语句，赋予每个查询语句合理的主题名称。进一步对每一个主题的查询语句进行修改，扩充删减关键词，修改关键字，调整权重。将最终定义好的主题保存，用户搜索主题名称时等价使用预定义好的查询语句检索。本发明专利技术解决了完全依靠人来定义主题查询语句造成的缺陷，提高了制造主题的效率，提高主题检索的准确率与召回率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题模型的主题检索方法
本专利技术属于主题建模和主题检索领域。特别是将两种方法的一种结合，利用人的先验知识和主题建模得到的统计信息共同构建主题并进行主题检索的方法。
技术介绍
主题模型(TopicModel)在机器学习和自然语言处理等领域是用来在数据集中(一系列文档中)发现抽象主题的一种统计模型。主题模型会根据输入的主题个数n,自动分析数据集中每个文档，统计文档内的词语,对数据集的词进行聚类，最后得到每个主题的词概率分布。主题检索即将预先定义好的查询语句作为主题，在检索时只检索主题名称即等价于检索其对应的查询语句。比如，定义一个主题名称为“人工智能”的主题：“人工智能^5OR机器人^3OR自动驾驶^4”查询语句由关键字和关键词组成，上例中“人工智能”“机器人”“自动驾驶”是关键词。“OR”和“^5”“^3”“^4”是关键字，分别代表关键词之间的关系(例子中为逻辑关系:OR)，以及每个关键词的权重(5,3,4)。逻辑或(OR)表示有一个关键词命中就算命中，权重则代表关键词的重要性，命中含有权重高的关键词的文档得分高，会优先出现在搜索结果页的最前面。(注：不同搜索引擎支持的关键字语法形式略有不同，比如aORb,a<or>b,or(a,b)，但都表示逻辑或，语义相同)主题检索的目的在于，可以把人(业务人员，运营人员和领域专家)的经验知识(哪些关键词最恰当的描述了该主题，他们的权重是多少，他们的关系是什么)通过查询语句给描绘捕获保存下来，而使用者不需知道该主题的查询语句是如何定义的，只需通过主题名称进行检索以达到浏览相关主题文章的目的,同时因为...

【技术保护点】
1.一种基于主题模型的主题检索方法，其特征在于：该方法包括如下步骤，步骤1:将分词后的文章集作为训练数据并输入LDA主题模型参数，LDA主题模型参数包括设定主题数K、超参数α和β,α的值表示主题在取样之前的权重分布，β的值表示各个主题对词的先验分布；步骤2:训练LDA模型，得到每个主题下的K个词概率分布；步骤3:给定整数n值；步骤4:对每个词概率分布中的概率最高的前n个词作为查询语句中的关键词，其概率等比映射到查询语句中关键词的权重；步骤5:在每个词中间添加“OR”关键字形成查询语句；步骤6:重复步骤4‑5，直到K个词概率分布都转换成查询语句；步骤7:业务人员，运营人员或者专家通过观察生成的每个查询语句，赋予每个查询语句合理的主题名称；步骤8:业务人员，运营人员或者专家进一步对每一个主题的查询语句进行修改，扩充删减关键词，修改关键字，调整权重；步骤9:将最终定义好的主题保存，用户搜索主题名称时等价使用预定义好的查询语句检索。

【技术特征摘要】
1.一种基于主题模型的主题检索方法，其特征在于：该方法包括如下步骤，步骤1:将分词后的文章集作为训练数据并输入LDA主题模型参数，LDA主题模型参数包括设定主题数K、超参数α和β,α的值表示主题在取样之前的权重分布，β的值表示各个主题对词的先验分布；步骤2:训练LDA模型，得到每个主题下的K个词概率分布；步骤3:给定整数n值；步骤4:对每个词概率分布中的概率最高的前n个词作为查询语句中的关键词，其概率等比映射到查询...

【专利技术属性】
技术研发人员：徐晨，段娟，肖创柏，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人