基于异构主题模型和词嵌入模型的文本推荐方法和系统技术方案

技术编号：23445904 阅读：36 留言：0更新日期：2020-02-28 20:04

本发明专利技术提供了一种基于异构主题模型和词嵌入模型的文本推荐方法，包括以下步骤：对文本预处理获得分词结果和保留词列表并提取文本属性的步骤；通过迭代训练确定文本与主题对应关系的主题模型，得到文本特征表示的步骤；构建词嵌入模型，利用保留词训练得到词嵌入矩阵的步骤；基于文本特征表示和词嵌入矩阵计算文本嵌入向量，通过文本嵌入向量的余弦相似度确定推荐文本的步骤。本发明专利技术还提供了相关文本推荐系统。本发明专利技术提供的基于主题模型和词嵌入模型的相关文本推荐方法和系统的优点在于：兼顾了文本的多维度信息，能够基于上下文信息关联同义词区别多义词，提高了文本推荐的准确度。

Text recommendation method and system based on heterogeneous topic model and word embedding model

全部详细技术资料下载

【技术实现步骤摘要】
基于异构主题模型和词嵌入模型的文本推荐方法和系统
本专利技术涉及文本内容相关度分析
，尤其涉及基于异构主题模型和词嵌入模型的文本推荐方法和系统。
技术介绍
随着信息的爆炸性增长，以专利检索为代表的相关文本查询检索的挑战性也越来越大，利用智能模型自动对文本进行处理和检索能够极大的便利专利技术人、代理人和审查员的工作；现有的专利推荐方法多基于简单的关键词匹配、主题模型或嵌入模型实现，关键词匹配技术单纯地根据词是否相同进行匹配，或构建同义词表，扩展匹配范围，很难兼顾查全和差准两方面的要求；主题模型则多基于文本内容构建概率分布，能够通过文本的隐含主题信息对专利进行推荐，但没有很好地考虑到专利数据的异构性，忽视了结构信息或非文本信息；嵌入模型可以获取专利文本的深层语义信息，但目前的嵌入模型大多无法同时解决同义词和多义词的问题，且没有针对专利文本中较多的专有名词和罕用词进行针对性处理。借助现有的专利推荐技术，专利推荐结果往往不如预期，存在许多非相关专利。
技术实现思路
本专利技术所要解决的技术问题在于提供一种基...

【技术保护点】
1.一种基于异构主题模型和词嵌入模型的文本推荐方法，其特征在于：包括以下步骤：/n步骤A：对当前文本和样本文本进行预处理，获得当前文本和样本文本的分词结果和保留词列表，提取当前文本和样本文本的作者和单位信息；/n步骤B：构建主题模型，基于保留词、作者和单位与主题的关系对主题模型进行迭代训练，利用训练后的主题模型计算得到文本特征表示；/n步骤C：构建词嵌入模型，利用保留词训练词嵌入模型，获取列表中所有词的词嵌入向量，汇总得到保留词列表内所有词的词嵌入矩阵；/n步骤D：基于文本特征表示和词嵌入矩阵计算得到样本文本的文本嵌入矩阵，将当前文本的数据输入训练好的主题模型和词嵌入模型，基于文本特征表示和词...

【技术特征摘要】
1.一种基于异构主题模型和词嵌入模型的文本推荐方法，其特征在于：包括以下步骤：
步骤A：对当前文本和样本文本进行预处理，获得当前文本和样本文本的分词结果和保留词列表，提取当前文本和样本文本的作者和单位信息；
步骤B：构建主题模型，基于保留词、作者和单位与主题的关系对主题模型进行迭代训练，利用训练后的主题模型计算得到文本特征表示；
步骤C：构建词嵌入模型，利用保留词训练词嵌入模型，获取列表中所有词的词嵌入向量，汇总得到保留词列表内所有词的词嵌入矩阵；
步骤D：基于文本特征表示和词嵌入矩阵计算得到样本文本的文本嵌入矩阵，将当前文本的数据输入训练好的主题模型和词嵌入模型，基于文本特征表示和词嵌入向量计算当前文本的文本嵌入向量，计算当前文本的文本嵌入向量和样本文本的文本嵌入矩阵内的每行数据的余弦相似度，将余弦相似度最高或余弦相似度超过阈值的数据对应的文本作为相关文本。

2.根据权利要求1所述的一种基于异构主题模型和词嵌入模型的文本推荐方法，其特征在于：步骤A所述的预处理包括使用分词工具将文本切割为一系列包括字和/或单词和/或词组的短语；对切割后的短语进行停用词过滤。

3.根据权利要求2所述的一种基于异构主题模型和词嵌入模型的文本推荐方法，其特征在于：步骤A所述的预处理还包括对高频词进行过滤的步骤，具体方法如下：
对于短语w其能够保留的概率P(w)表示为：

其中，th是阈值，默认为10-2；f(w)为短语w在所有样本文本中出现的频率，mw为停用词过滤后所有短语中出现短语w的总次数，n为停用词过滤后所有短语的总数；
对每一个短语w赋予0-1内的随机数δw，如果δw＞P(w)，则从每一个样本文本中删除该短语，否则保留该短语，最终得到停用词和高频词过滤后的分词结果和保留词列表。

4.根据权利要求3所述的一种基于异构主题模型和词嵌入模型的文本推荐方法，其特征在于：步骤B所述的通过迭代训练确定保留词和文本属性与主题的对应关系的方法具体包括以下步骤：
步骤i：构建所有保留词内的短语与主题之间的主题-短语分布矩阵XZw＝[φij]、作者-主题分布矩阵XaZ＝[θij]、主题-单位分布矩阵XZc＝[ψij]；
其中φij表示第i个主题下第j个短语被采样到的概率，θij表示第i个作者下第j个主题被采样到的概率，ψij表示第i个主题下第j个单位被采样到的概率；
步骤ii：确定主题数，依次将每个样本文本的作者Ap、单位Cp以及分词结果内的所有短语Wp随机分配给每个主题；
步骤iii：将所有样本文本的主题分配结果进行汇总，并按照如下公式分别计算矩阵中的数值；

其中，αij为第i个作者下第j个主题被采样到的次数，βij为第i个主题下第j个短语被采样到的次数，μij为第i个主题下第j个单位被采样到的次数；Z为主题集合，W为保留词集合，A为作者集合；
步骤iv：对样本文本中的每个文本的分词结果、作者和单位进行吉布斯采样，用步骤iii的公式更新步骤i中的矩阵，直到相邻两次迭代更新后的矩阵不变。

5.根...

【专利技术属性】
技术研发人员：赵姝，陈嘉琳，陈洁，段震，张燕平，
申请(专利权)人：安徽大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人