基于LDA主题模型结合诗词知识图谱的诗词推荐方法技术

技术编号：29306220 阅读：62 留言：0更新日期：2021-07-17 01:50

本发明专利技术公开了基于LDA主题模型结合诗词知识图谱的诗词推荐方法，该方法包括以下步骤：通过数据预处理模块对诗词数据进行清洗及预处理，且通过LDA主题模型对诗词数据进行训练，生成Topics与主题模型，同时将诗词逐个输入到主题模型中，得到每首诗词与Topics的相关性；将Topics作为图节点，并将诗词与Topics的相关性作为图的边融合入已生成的诗词知识图谱中；将需要推荐的诗词输入诗词推荐器，诗词推荐器根据输入的诗词从诗词知识图谱中按照Topics相关性及其他诗词属性的共同特征查找相关度最高的诗词；根据查找的诗词结果，向用户输出推荐诗词。有益效果：提高了推荐算法在诗词本文的分析能力及诗词推荐的准确率。文的分析能力及诗词推荐的准确率。文的分析能力及诗词推荐的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于LDA主题模型结合诗词知识图谱的诗词推荐方法

[0001]本专利技术涉及主题模型、推荐方法、诗词学习、自然语言处理，具体来说，涉及基于LDA主题模型结合诗词知识图谱的诗词推荐方法。

技术介绍

[0002]目前对于古诗词的个性化智能推荐系统比较匮乏，绝大多数的诗词网站也只是对于诗词内容的简单展示，而非推荐，所以进行古诗词推荐方面的研究对于促进中华优秀传统文化的传播具有重要意义。
[0003]近年来最接近本专利技术的技术有Word2vec模型：Word2vec是一款用于训练词向量的软件工具，提供了CBOW和Skip
‑
gram两种模型。结合hierarchy softmax和negative sampling优化技术，Word2vec可以快速高效地将词语表达成向量。Word2vec本身的特点使其效率变得很高。但是，Word2vec是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。
[0004]为了弥补传统推荐方法在相关度的上的欠缺，以及由于过大的推荐模型难以在轻量级计算平台上运...

【技术保护点】

【技术特征摘要】
1.基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，该方法包括以下步骤：S1、通过数据预处理模块对诗词数据进行清洗及预处理，且通过LDA主题模型对诗词数据进行训练，生成Topics与主题模型，同时将诗词逐个输入到主题模型中，得到每首诗词与Topics的相关性；S2、将Topics作为图节点，并将诗词与Topics的相关性作为图的边融合入已生成的诗词知识图谱中；S3、将需要推荐的诗词输入诗词推荐器，诗词推荐器根据输入的诗词从诗词知识图谱中按照Topics相关性及其他诗词属性的共同特征查找相关度最高的诗词，并向用户输出推荐诗词。2.根据权利要求1所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S1中预处理包括诗词分词、剔除空数据、无效数据、剔除无情感意义的文字和重复数据；其中，在预处理模块，使用Jieba分词将诗词进行分词处理，并根据词语含义将每句诗词分成多个中文短语，同时将诗词中含义较弱的单字与词语使用TF
‑
IDF算法进行剔除。3.根据权利要求1所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S1中通过LDA主题模型对诗词数据进行训练，生成Topics包括以下步骤：使用Jieba分词将诗词进行分词处理并使用TF
‑
IDF算法剔除诗词集合中含义弱的词语，并输入到LDA主题模型中，且LDA主题模型将诗词进行分类并生成一定数量的Topics；将诗词集合依次输入已经由所有诗词训练好的LDA主题模型，并逐个生成所有诗词与各Topics的符合度。4.根据权利要求3所述的基于LDA主题模型结合诗词知识图谱的诗词推荐方法，其特征在于，所述S1中LDA主题模型将诗词进行分类并生成一定数量的Topics，其Topics数量的确定方法包括以下步骤：将诗词集合输入LDA词袋模型中并进行训练，其Topics生成数量以10起步，并以10为步长分别训练多个LDA词袋模型，其Topics取值范围为[10，Num
(poetry)
/10]，其中Num
(poetry)
为参与训练的诗词...

【专利技术属性】
技术研发人员：包致成，彭嵘榕，祁晨草，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人