文章相似度挖掘方法、系统、设备及存储介质技术方案

技术编号：21478004 阅读：16 留言：0更新日期：2019-06-29 04:54

本发明专利技术公开了一种文章相似度挖掘方法、系统、设备及存储介质，其中方法包括步骤：S1、对多篇文章进行预处理，获取每篇文章的特征词；S2、基于TF‑IDF计算所述特征词的TF‑IDF权重；S3、根据所述TF‑IDF权重生成每篇文章的归一化的特征向量；S4、计算任意两个所述特征向量的相似度。本发明专利技术通过将文件进行分词、去停用词、提取特征词等预处理，然后采用改进的TF‑IDF方法计算特征词语的权重，通过TF‑IDF计算出文章的向量，形成表示文章的向量，然后通过计算文章的向量间的相似度，从而挖掘出更精准的相似文章并向用户推荐，从而抓住用户浏览偏好，提升了用户文章的点击转化率，提高用户浏览阅读体验。

全部详细技术资料下载

【技术实现步骤摘要】
文章相似度挖掘方法、系统、设备及存储介质
本专利技术涉及数据挖掘领域，特别涉及一种基于向量空间模型的文章相似度挖掘方法、系统、设备及存储介质。
技术介绍
随着互联网和人工智能的发展，人们获得信息的来源更丰富，特别是目前处于大数据时代，在用户浏览完一篇文章后，若能够自动地为用户推荐相似度高的相关文章，则可进一步抓住用户的偏好心理，从而在很大程度上提高用户的个性化体验。由于文章都是有字词组成，所以通常就将文章拆分为若干特征字词，并将这些特征字词形成特征集合，即将文章转化成特征向量，然后通过比较特征向量间的相似性来得到文章之间的相似度。现有技术中，在计算特征向量时，主要采用布尔权重、词频权重、TF-IDF(termfrequency–inversedocumentfrequency，词频-逆向文件频率)等方法来计算特征词语的权重。其中，布尔权重表示一个特征词语在文章中是否出现，所以布尔权重的优点是计算简单快速，缺点是无法体现高频词和低频词的区别；词频权重是表示一个特征词语在文章中出现的频率，所以词频权重的优点是快捷地统计出各个特征词语在文章中出现的次数，缺点是找不出特征词语在不同文章中的分布情况。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中布尔权重虽计算简单快速但无法体现高频词和低频词的区别，而词频权重虽能快捷地统计出各个特征词语在文章中出现的次数但不能找出特征词语在不同文章中的分布情况的缺陷，提供一种文章相似度挖掘方法、系统、设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题：本专利技术提供一种文章相似度挖掘方法，其特点是，包括步骤：...

【技术保护点】
1.一种文章相似度挖掘方法，其特征在于，包括：S1、对多篇文章进行预处理，获取每篇文章的特征词；S2、基于TF‑IDF计算所述特征词的TF‑IDF权重；S3、根据所述TF‑IDF权重生成每篇文章的归一化的特征向量；S4、计算任意两个所述特征向量的相似度。

【技术特征摘要】
1.一种文章相似度挖掘方法，其特征在于，包括：S1、对多篇文章进行预处理，获取每篇文章的特征词；S2、基于TF-IDF计算所述特征词的TF-IDF权重；S3、根据所述TF-IDF权重生成每篇文章的归一化的特征向量；S4、计算任意两个所述特征向量的相似度。2.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S1具体包括：S11、读取多篇文章，并清洗所述文章；S12、基于分词词库对已清洗的所述文章进行分词；S13、基于停用词词库对已分词的所述文章去停用词；S14、基于特征词词库对已去停用词的所述文章进行特征词提取。3.如权利要求2所述的文章相似度挖掘方法，其特征在于，步骤S12具体包括：基于分词词库对已清洗的所述文章采用隐马尔可夫模型进行分布式分词。4.如权利要求2所述的文章相似度挖掘方法，其特征在于，所述文章相似度挖掘方法还包括：在步骤S14前，将IDF值大于预设权重阈值的词和/或将自定义词作为特征词，并更新到所述特征词词库。5.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S2中TF-IDF权重的计算公式如下：其中，表示第t个特征词的归一化词频权重；表示第t个特征词的归一化逆向文件频率权重；ct表示第t个特征词的词频，表示n篇文章中所有特征词的总词频，n表示文章总篇数，dt表示含有第t个特征词的文章篇数，α为常数，α取值为0～1。6.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S4中计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。7.如权利要求1所述的文章相似度挖掘方法，其特征在于，步骤S4还包括将所述特征向量及计算出的相似度存储于大数据平台，所述文章相似度挖掘方法还包括：S5、当接收到用户请求目标文章时，从所述大数据平台中获取所述目标文章；S6、根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列；S7、从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章，当所述推荐文章的数量小于预设推荐数量时，还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章，然后将所述推荐文章按所述预设推荐数量向所述用户推荐和展示。8.如权利要求7所述的文章相似度挖掘方法，其特征在于，所述文章相似度挖掘方法还包括：在步骤S7前，记录所述用户的偏好主题，将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。9.如权利要求1所述的文章相似度挖掘方法，其特征在于，所述文章相似度挖掘方法还包括：根据配置参数，将新增文章按步骤S1–S4处理后衔接更新到大数据平台。10.一种文章相似度挖掘系统，其特征在于，包括文章表示模块和相似度计算模块，所述文章表示模块包括文本预处理单元、特征词提取单元、向量权重计算单元和文章向量化单元；所述文本预处理单元用于对多篇文章进行预处理；所述特征词提取单元用于获取每篇文章的特征词；所述向量权重计算单元用于基于TF-IDF计算所述特征词的TF-IDF权重；所述文章向量化单元用于根据所述TF-IDF权重生成每篇文章的归一化的特征向量；所述相似度计算模块用于计算任意两个所述特征向量的相似度。11.如权利要求10所述的文章相似度挖掘系统，其特征在于，所述文...

【专利技术属性】
技术研发人员：王颖帅，李晓霞，苗诗雨，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人