文章相似度挖掘方法、系统、设备及存储介质技术方案

技术编号:21478004 阅读:16 留言:0更新日期:2019-06-29 04:54
本发明专利技术公开了一种文章相似度挖掘方法、系统、设备及存储介质,其中方法包括步骤:S1、对多篇文章进行预处理,获取每篇文章的特征词;S2、基于TF‑IDF计算所述特征词的TF‑IDF权重;S3、根据所述TF‑IDF权重生成每篇文章的归一化的特征向量;S4、计算任意两个所述特征向量的相似度。本发明专利技术通过将文件进行分词、去停用词、提取特征词等预处理,然后采用改进的TF‑IDF方法计算特征词语的权重,通过TF‑IDF计算出文章的向量,形成表示文章的向量,然后通过计算文章的向量间的相似度,从而挖掘出更精准的相似文章并向用户推荐,从而抓住用户浏览偏好,提升了用户文章的点击转化率,提高用户浏览阅读体验。

【技术实现步骤摘要】
文章相似度挖掘方法、系统、设备及存储介质
本专利技术涉及数据挖掘领域,特别涉及一种基于向量空间模型的文章相似度挖掘方法、系统、设备及存储介质。
技术介绍
随着互联网和人工智能的发展,人们获得信息的来源更丰富,特别是目前处于大数据时代,在用户浏览完一篇文章后,若能够自动地为用户推荐相似度高的相关文章,则可进一步抓住用户的偏好心理,从而在很大程度上提高用户的个性化体验。由于文章都是有字词组成,所以通常就将文章拆分为若干特征字词,并将这些特征字词形成特征集合,即将文章转化成特征向量,然后通过比较特征向量间的相似性来得到文章之间的相似度。现有技术中,在计算特征向量时,主要采用布尔权重、词频权重、TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)等方法来计算特征词语的权重。其中,布尔权重表示一个特征词语在文章中是否出现,所以布尔权重的优点是计算简单快速,缺点是无法体现高频词和低频词的区别;词频权重是表示一个特征词语在文章中出现的频率,所以词频权重的优点是快捷地统计出各个特征词语在文章中出现的次数,缺点是找不出特征词语在不同文章中的分布情况。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中布尔权重虽计算简单快速但无法体现高频词和低频词的区别,而词频权重虽能快捷地统计出各个特征词语在文章中出现的次数但不能找出特征词语在不同文章中的分布情况的缺陷,提供一种文章相似度挖掘方法、系统、设备及存储介质。本专利技术是通过下述技术方案来解决上述技术问题:本专利技术提供一种文章相似度挖掘方法,其特点是,包括步骤:S1、对多篇文章进行预处理,获取每篇文章的特征词;S2、基于TF-IDF计算所述特征词的TF-IDF权重;S3、根据所述TF-IDF权重生成每篇文章的归一化的特征向量;S4、计算任意两个所述特征向量的相似度。本方案中,在预处理获得能够表征文章显著类别信息的特征词后,采用TF-IDF对特征词进行降权,从而使用降权后的特征向量来表示文章,这样在大数据的当下,大量文章之间的相似性就可转变为计算特征向量之间的相似性,从而可以采用大数据计算如Spark(专为大规模数据处理而设计的快速通用的计算引擎)进行文章之间相似度的挖掘。较佳地,步骤S1具体包括:S11、读取多篇文章,并清洗所述文章;S12、基于分词词库对已清洗的所述文章进行分词;S13、基于停用词词库对已分词的所述文章去停用词;S14、基于特征词词库对已去停用词的所述文章进行特征词提取。本方案中,鉴于读取的文章一般来自于基础语料数据库如大数据平台提供的文章描述表、文章属性表等,这些文章数据很不规范,里面有json字符串,也有很多特殊符号,所以在进行分词前,一般采用Spark程序做正则匹配自动化处理进行数据清洗,比如去标点,去语气词,还包括文本格式转化,去除html网页标签等。较佳地,步骤S12具体包括:基于分词词库对已清洗的所述文章采用隐马尔可夫模型进行分布式分词。较佳地,在步骤S14前,将IDF值大于预设权重阈值的词和/或将自定义词作为特征词,并更新到所述特征词词库。较佳地,步骤S2中TF-IDF权重的计算公式如下:其中,表示第t个特征词的归一化词频权重;表示第t个特征词的归一化逆向文件频率权重;ct表示第t个特征词的词频,表示n篇文章中所有特征词的总词频,n表示文章总篇数,dt表示含有第t个特征词的文章篇数,α为常数,α取值为0~1。较佳地,步骤S4中计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。较佳地,步骤S4还包括将所述特征向量及计算出的相似度存储于大数据平台;所述文章相似度挖掘方法还包括:S5、当接收到用户请求目标文章时,从所述大数据平台中获取所述目标文章;S6、根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列;S7、从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章,当所述推荐文章的数量小于预设推荐数量时,还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章,然后将所述推荐文章按所述预设推荐数量向所述用户推荐和展示。较佳地,在步骤S7前,记录所述用户的偏好主题,将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。较佳地,所述文章相似度挖掘方法还包括:根据配置参数,将新增文章按步骤S1–S4处理后衔接更新到大数据平台。本专利技术还提供一种文章相似度挖掘系统,其特点是,包括文章表示模块和相似度计算模块,所述文章表示模块包括文本预处理单元、特征词提取单元、向量权重计算单元和文章向量化单元;所述文本预处理单元用于对多篇文章进行预处理;所述特征词提取单元用于获取每篇文章的特征词;所述向量权重计算单元用于基于TF-IDF计算所述特征词的TF-IDF权重;所述文章向量化单元用于根据所述TF-IDF权重生成每篇文章的归一化的特征向量;所述相似度计算模块用于计算任意两个所述特征向量的相似度。较佳地,所述文本预处理单元包括读取子单元、清洗子单元、分词子单元和去停用词子单元;所述读取子单元用于读取多篇文章;所述清洗子单元用于清洗已读取的所述文章;所述分词子单元用于基于分词词库对已清洗的所述文章进行分词;所述去停用词子单元用于基于停用词词库对已分词的所述文章去停用词;所述特征词提取单元用于基于特征词词库对已去停用词的所述文章进行特征词提取。较佳地,所述分词子单元包括隐马尔可夫模型,所述隐马尔可夫模型用于基于分词词库对已清洗的所述文章进行分布式分词。较佳地,所述文章表示模块还包括词库更新单元,所述词库更新单元用于在执行所述特征词提取单元前,将IDF值大于预设权重阈值的词和/或将自定义词作为特征词,并更新到所述特征词词库。较佳地,所述向量权重计算单元中用于计算TF-IDF权重的公式如下:其中,表示第t个特征词的归一化词频权重;表示第t个特征词的归一化逆向文件频率权重;ct表示第t个特征词的词频,表示n篇文章中所有特征词的总词频,n表示文章总篇数,dt表示含有第t个特征词的文章篇数,α为常数,α取值为0~1。较佳地,所述相似度计算模块中用于计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。较佳地,所述文章相似度挖掘系统还包括结果处理模块,所述结果处理模块包括结果整合单元、相似文章分析单元和推荐展示单元;所述结果整合单元用于将所述特征向量及计算出的相似度存储于大数据平台;所述相似文章分析单元用于在接收到用户请求目标文章时,从所述大数据平台中获取所述目标文章,还用于根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列,还用于从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章,并在所述推荐文章的数量小于预设推荐数量时,还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章;所述推荐展示单元本文档来自技高网...

【技术保护点】
1.一种文章相似度挖掘方法,其特征在于,包括:S1、对多篇文章进行预处理,获取每篇文章的特征词;S2、基于TF‑IDF计算所述特征词的TF‑IDF权重;S3、根据所述TF‑IDF权重生成每篇文章的归一化的特征向量;S4、计算任意两个所述特征向量的相似度。

【技术特征摘要】
1.一种文章相似度挖掘方法,其特征在于,包括:S1、对多篇文章进行预处理,获取每篇文章的特征词;S2、基于TF-IDF计算所述特征词的TF-IDF权重;S3、根据所述TF-IDF权重生成每篇文章的归一化的特征向量;S4、计算任意两个所述特征向量的相似度。2.如权利要求1所述的文章相似度挖掘方法,其特征在于,步骤S1具体包括:S11、读取多篇文章,并清洗所述文章;S12、基于分词词库对已清洗的所述文章进行分词;S13、基于停用词词库对已分词的所述文章去停用词;S14、基于特征词词库对已去停用词的所述文章进行特征词提取。3.如权利要求2所述的文章相似度挖掘方法,其特征在于,步骤S12具体包括:基于分词词库对已清洗的所述文章采用隐马尔可夫模型进行分布式分词。4.如权利要求2所述的文章相似度挖掘方法,其特征在于,所述文章相似度挖掘方法还包括:在步骤S14前,将IDF值大于预设权重阈值的词和/或将自定义词作为特征词,并更新到所述特征词词库。5.如权利要求1所述的文章相似度挖掘方法,其特征在于,步骤S2中TF-IDF权重的计算公式如下:其中,表示第t个特征词的归一化词频权重;表示第t个特征词的归一化逆向文件频率权重;ct表示第t个特征词的词频,表示n篇文章中所有特征词的总词频,n表示文章总篇数,dt表示含有第t个特征词的文章篇数,α为常数,α取值为0~1。6.如权利要求1所述的文章相似度挖掘方法,其特征在于,步骤S4中计算任意两个所述特征向量的相似度的方法包括余弦内积、Pearson相似系数、Jaccard相似系数和余弦相似度中的任意一种方法。7.如权利要求1所述的文章相似度挖掘方法,其特征在于,步骤S4还包括将所述特征向量及计算出的相似度存储于大数据平台,所述文章相似度挖掘方法还包括:S5、当接收到用户请求目标文章时,从所述大数据平台中获取所述目标文章;S6、根据所述目标文章与所述大数据平台中其他文章之间的相似度按相似度从高到低排序形成所述用户的推荐文章队列;S7、从所述推荐文章队列中提取相似度大于预设相似度阈值的文章作为推荐文章,当所述推荐文章的数量小于预设推荐数量时,还从与所述用户上一次点击的文章的相似度大于所述预设相似度阈值的文章中按相似度从高到低提取文章追加为所述推荐文章,然后将所述推荐文章按所述预设推荐数量向所述用户推荐和展示。8.如权利要求7所述的文章相似度挖掘方法,其特征在于,所述文章相似度挖掘方法还包括:在步骤S7前,记录所述用户的偏好主题,将与所述偏好主题的文章的相似度大于所述预设相似度阈值的文章按相似度从高到低更新到所述推荐文章队列中。9.如权利要求1所述的文章相似度挖掘方法,其特征在于,所述文章相似度挖掘方法还包括:根据配置参数,将新增文章按步骤S1–S4处理后衔接更新到大数据平台。10.一种文章相似度挖掘系统,其特征在于,包括文章表示模块和相似度计算模块,所述文章表示模块包括文本预处理单元、特征词提取单元、向量权重计算单元和文章向量化单元;所述文本预处理单元用于对多篇文章进行预处理;所述特征词提取单元用于获取每篇文章的特征词;所述向量权重计算单元用于基于TF-IDF计算所述特征词的TF-IDF权重;所述文章向量化单元用于根据所述TF-IDF权重生成每篇文章的归一化的特征向量;所述相似度计算模块用于计算任意两个所述特征向量的相似度。11.如权利要求10所述的文章相似度挖掘系统,其特征在于,所述文...

【专利技术属性】
技术研发人员:王颖帅李晓霞苗诗雨
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1