一种基于ITQ算法的印尼语相似新闻推荐方法技术

技术编号:21571657 阅读:48 留言:0更新日期:2019-07-10 15:26
本发明专利技术提供了一种基于ITQ算法的印尼语相似新闻推荐方法,首先,提取每篇印尼新闻中的标题以及正文,保存至对应印尼新闻的字段中;根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;通过ITQ算法得到最优旋转矩阵下的特征向量的二进制编码;计算当前被浏览的印尼新闻和候选数据集中每篇印尼新闻的二进制数组成的n位签名;计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;根据所述汉明距离进行排序,选取候选数据集中距离最小的前m篇印尼新闻作为推荐新闻。本发明专利技术通过以上方法解决了基于内容的新闻推荐效果与计算量平衡的技术问题。本发明专利技术灵活性强,能够适用各种语言环境。

An Indonesian Similar News Recommendation Method Based on ITQ Algorithms

【技术实现步骤摘要】
一种基于ITQ算法的印尼语相似新闻推荐方法
本专利技术属于计算机领域,具体涉及一种基于ITQ算法的印尼语相似新闻推荐方法。
技术介绍
用户搜索网页新闻时,系统将高效且准确的从数据库中检索出与用户当前浏览的网页新闻在内容上相似或相近的新闻。现有实现相同功能的技术大致有如下两种,第一种:基于数据库自带的搜索排序功能,搜索引擎的大致工作原理如下,将所拥有全部新闻网页中的每一篇新闻作分词处理,分词的结果存储在数据库中,每一个词汇会对应一个新闻序号字段,表示哪些新闻中包含这个词汇,当用户检索新闻时,系统将用户输入的词汇进行分词处理后,在数据库中查找每个词汇对应的新闻序号字段,然后将这些词汇对应的新闻序号字段求交集,即找到同时包含输入词汇的新闻序号,然后将其中一个返回,这样用户就根据搜索查看到了对应的新闻,数据库自带的推荐实现就是在上一步骤基础之上,将找到的其他新闻序号返回。该方法的缺点如下:数据库的主要功能是支持对数据进行高效的增删查改操作,数据库自带的实现排序的方法源于对新闻的分词,然后建立倒排索引,利用词汇对应的新闻序号这一信息,仅仅给予了新闻中每个词汇相同重要性,没突出新闻的主体,这样会导致即使对词汇对应的新闻序号做了交集运算,包含这样词汇的新闻量还是很多,因为把新闻中每个词汇赋予了相同的重要性,而新闻有关键词,这些词汇应该要更重要些,所以推荐出来的新闻可能也含有这些词汇,但仅仅出现一次,而且对全文信息毫无中用,那么推荐的效果就不够理想。第二种:基于已经搜索出来的网页,利用TF-IDF技术对该网页进行表示,同时利用该技术对数据库中的其他网页进行表示。TF-IDF即是词频-逆文档频率,要推荐新闻首先要表示新闻,怎样准确的表示一篇新闻成为了关键,词频-逆文档频率,提供了这么一种思想,将新闻分割为词汇后,认为新闻中词汇频率高的同时这些词汇在其他新闻中出现次数较少的,那么这些词汇就能够有效的成为这篇新闻的关键词以来区分数据库中其他的新闻。利用TF-IDF经过数学运算得到一个数值,那么每一篇新闻中这些词都有一个这样的TF-IDF值,这样使得每一篇新闻都能用这样的一个数值向量表示,然后利用已经向量化的新闻通过数学方式如:欧氏距离或余弦相似,求得向量的相似程度,来实现基于内容的推荐。该方法的缺点如下:词频-逆文档频率首先是对新闻向量化,即是将新闻转化为维度相同的一个一维数值向量,在新闻向量的基础上进行相似推荐。这个向量的维度非常大,就算利用了一些词汇过滤手段去除掉一些词汇,向量的维度还是会达到数十万,在内存中计算的开销非常大,利用TF-IDF计算每篇新闻各个维度的值,只是利用到了新闻词汇词频的信息,没有更多的考虑上下文的信息,对新闻信息的利用率低。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的一种基于ITQ算法的印尼语相似新闻推荐方法解决了基于内容的新闻推荐效果与计算量平衡的技术问题。为了达到以上目的,本专利技术采用的技术方案为:本方案提供一种基于ITQ算法的印尼语相似新闻推荐方法,包括如下步骤:(S1)爬取印尼新闻数据,提取每篇印尼新闻中的标题以及正文,并保存至对应印尼新闻的字段中;(S2)根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;(S3)根据所述新闻到向量的映射字典通过ITQ算法,得到最优旋转矩阵下的特征向量的二进制编码;(S4)根据所述新闻到向量的映射字典以及最优旋转矩阵下的特征向量的二进制编码分别计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的二进制数组成的n位签名,其中,n为二进制编码的总位数;(S5)根据所述二进制数组成的n位签名计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;(S6)根据所述汉明距离进行排序,选取候选数据集中距离小的前m篇印尼新闻作为推荐新闻,从而完成相似新闻的推荐。进一步地,所述步骤(S2)包括如下步骤:(a1)根据爬取的印尼新闻数据,得到使用频率最高的100000个单词,并利用Word2Vec模型计算词嵌入;(a2)根据所述词嵌入将每篇新闻转化为向量表达,从而得到新闻到向量的映射字典。再进一步地,所述步骤(S2)还包括对印尼新闻的预处理,其包括如下步骤:(b1)将印尼新闻的内容进行分词处理;(b2)根据分词处理结果,将分词中的停用语和特殊字符进行过滤,得到纯文本数据,从而完成对印尼新闻的预处理。再进一步地,所述步骤(S3)包括如下步骤:(c1)将所述新闻到向量的映射字典利用PCA进行降维处理;(c2)根据降维处理结果寻找量化误差最小的旋转矩阵,从而得到最优旋转矩阵下的特征向量的二进制编码。再进一步地,所述步骤(c1)的表达式如下:其中,为关于W的目标函数,W为协方差矩阵XTX的特征向量组成的矩阵,E为期望值,x为单个样本,ωk为sgn(·)函数的超平面参数,m为样本数,T为矩阵的转置,X为新闻词向量化后的数据集,k表示第k个sgn函数,I为单位矩阵。再进一步地,所述步骤(c2)的求解过程如下:(d1)随机初始化并固定正交矩阵R,以及更新最优解矩阵B;(d2)将所述正交矩阵R以及最优解矩阵B转化为最小化目标函数得到最优解矩阵B=sgn(VR),其中,F为F范式,tr为矩阵的迹,T为矩阵的转置,V为投影标题新闻后的矩阵且V=XW,X为新闻词向量化后的数据集,W为协方差矩阵XTX的特征向量组成的矩阵;(d3)固定最优解矩阵B,更新正交矩阵R;(d4)根据OrthogonalProcrustesproblem普氏正交问题对BTV进行奇异值SVD分解得到最优解正交矩阵其中,B为最优解矩阵,S与均为BTV奇异值分解后的酉矩阵,T为矩阵的转置,V为投影标题新闻后的矩阵且V=XW,X为新闻词向量化后的数据集,W为协方差矩阵XTX的特征向量组成的矩阵,Ω为奇异值分解后的半正定对角矩阵;(d5)重复步骤(d1)到(d4),输出最优解矩阵B,从而得到最优旋转矩阵下的特征向量的二进制编码。再进一步地,所述步骤(S4)中计算当前被浏览的印尼新闻的二进制数组成的n位签名,其包括如下步骤:(e1)根据所述新闻到向量的映射字典,计算当前被浏览新闻中标题的二进制数组成的n位签名Ai;(e2)根据最优旋转矩阵下的特征向量的二进制编码,计算当前被浏览新闻中新闻内容的二进制数组成的n位签名Bi;(e3)根据所述二进制数组成的n位签名Ai和所述二进制数组成的n位签名Bi,拼接得到当前浏览新闻的二进制数组成的n位签名Ci,从而完成当前被浏览的印尼新闻的二进制数组成的n位签名,其中,i为候选数据集中新闻的译成号,n为二进制编码的总位数。再进一步地,所述步骤(S4)中计算候选数据集中每篇印尼新闻的二进制数组成的n位签名,其包括如下步骤:(f1)根据所述新闻到向量的映射字典,计算候选数据集中每一篇新闻中标题二进制数组成的n位签名Di;(f2)根据最优旋转矩阵下的特征向量的二进制编码,计算候选数据集中每一篇新闻中新闻内容的二进制数组成的n位签名Ei;(f3)根据所述二进制数组成的n位签名Di与所述二进制数组成的n位签名Ei,计算得到候选数据集中每一篇新闻的二进制数组成的n位签名Fi,从而完成候选数据集中每篇印尼新闻的二进制数组成的n位签名,其中,i为候选数据集中新闻的译成号,n为二进本文档来自技高网
...

【技术保护点】
1.一种基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,包括如下步骤:(S1)爬取印尼新闻数据,提取每篇印尼新闻中的标题以及正文,并保存至对应印尼新闻的字段中;(S2)根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;(S3)根据所述新闻到向量的映射字典通过ITQ算法,得到最优旋转矩阵下的特征向量的二进制编码;(S4)根据所述新闻到向量的映射字典以及最优旋转矩阵下的特征向量的二进制编码分别计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的二进制数组成的n位签名,其中,n为二进制编码的总位数;(S5)根据所述二进制数组成的n位签名计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;(S6)根据所述汉明距离进行排序,选取候选数据集中汉明距离最小的前m篇印尼新闻作为推荐新闻,从而完成相似新闻的推荐。

【技术特征摘要】
1.一种基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,包括如下步骤:(S1)爬取印尼新闻数据,提取每篇印尼新闻中的标题以及正文,并保存至对应印尼新闻的字段中;(S2)根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;(S3)根据所述新闻到向量的映射字典通过ITQ算法,得到最优旋转矩阵下的特征向量的二进制编码;(S4)根据所述新闻到向量的映射字典以及最优旋转矩阵下的特征向量的二进制编码分别计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的二进制数组成的n位签名,其中,n为二进制编码的总位数;(S5)根据所述二进制数组成的n位签名计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;(S6)根据所述汉明距离进行排序,选取候选数据集中汉明距离最小的前m篇印尼新闻作为推荐新闻,从而完成相似新闻的推荐。2.根据权利要求1所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(S2)包括如下步骤:(a1)根据爬取的印尼新闻数据,得到使用频率最高的100000个单词,并利用Word2Vec模型计算词嵌入;(a2)根据所述词嵌入将每篇新闻转化为向量表达,从而得到新闻到向量的映射字典。3.根据权利要求1所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(S2)还包括对印尼新闻的预处理,其包括如下步骤:(b1)将印尼新闻的内容进行分词处理;(b2)根据分词处理结果,将分词中的停用语和特殊字符进行过滤,得到纯文本数据,从而完成对印尼新闻的预处理。4.根据权利要求1所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(S3)包括如下步骤:(c1)将所述新闻到向量的映射字典利用PCA进行降维处理;(c2)根据降维处理结果寻找量化误差最小的旋转矩阵,从而得到最优旋转矩阵下的特征向量的二进制编码。5.根据权利要求4所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(c1)的表达式如下:其中,为关于W的目标函数,W为协方差矩阵XTX的特征向量组成的矩阵,E为期望值,x为单个样本,ωk为sgn(·)函数的超平面参数,m为样本数,T为矩阵的转置,X为新闻词向量化后的数据集,k表示第k个sgn函数,I为单位矩阵。6.根据权利要求4所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(c2)的求解过程如下:(d1)随机初始化并固定正交矩阵R,以及更新最优解矩阵B;(d2)将所述正交矩阵R以及最优解矩阵B转化为最小化目标函数得到最优解矩阵B=sgn(VR),其中,F为F范式,tr为矩阵的迹,T为矩阵的转置,V为投影标题新闻后的矩阵且V=XW,X为新闻词向量化后的数据集,W为协方差矩阵XTX的特征向量...

【专利技术属性】
技术研发人员:杨国武杨晓强张庆颖陈祥熊菊霞黄勇王逸尘刘海洋
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1