【技术实现步骤摘要】
一种基于ITQ算法的印尼语相似新闻推荐方法
本专利技术属于计算机领域,具体涉及一种基于ITQ算法的印尼语相似新闻推荐方法。
技术介绍
用户搜索网页新闻时,系统将高效且准确的从数据库中检索出与用户当前浏览的网页新闻在内容上相似或相近的新闻。现有实现相同功能的技术大致有如下两种,第一种:基于数据库自带的搜索排序功能,搜索引擎的大致工作原理如下,将所拥有全部新闻网页中的每一篇新闻作分词处理,分词的结果存储在数据库中,每一个词汇会对应一个新闻序号字段,表示哪些新闻中包含这个词汇,当用户检索新闻时,系统将用户输入的词汇进行分词处理后,在数据库中查找每个词汇对应的新闻序号字段,然后将这些词汇对应的新闻序号字段求交集,即找到同时包含输入词汇的新闻序号,然后将其中一个返回,这样用户就根据搜索查看到了对应的新闻,数据库自带的推荐实现就是在上一步骤基础之上,将找到的其他新闻序号返回。该方法的缺点如下:数据库的主要功能是支持对数据进行高效的增删查改操作,数据库自带的实现排序的方法源于对新闻的分词,然后建立倒排索引,利用词汇对应的新闻序号这一信息,仅仅给予了新闻中每个词汇相同重要性,没突出新闻的主体,这样会导致即使对词汇对应的新闻序号做了交集运算,包含这样词汇的新闻量还是很多,因为把新闻中每个词汇赋予了相同的重要性,而新闻有关键词,这些词汇应该要更重要些,所以推荐出来的新闻可能也含有这些词汇,但仅仅出现一次,而且对全文信息毫无中用,那么推荐的效果就不够理想。第二种:基于已经搜索出来的网页,利用TF-IDF技术对该网页进行表示,同时利用该技术对数据库中的其他网页进行表示。TF-ID ...
【技术保护点】
1.一种基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,包括如下步骤:(S1)爬取印尼新闻数据,提取每篇印尼新闻中的标题以及正文,并保存至对应印尼新闻的字段中;(S2)根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;(S3)根据所述新闻到向量的映射字典通过ITQ算法,得到最优旋转矩阵下的特征向量的二进制编码;(S4)根据所述新闻到向量的映射字典以及最优旋转矩阵下的特征向量的二进制编码分别计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的二进制数组成的n位签名,其中,n为二进制编码的总位数;(S5)根据所述二进制数组成的n位签名计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;(S6)根据所述汉明距离进行排序,选取候选数据集中汉明距离最小的前m篇印尼新闻作为推荐新闻,从而完成相似新闻的推荐。
【技术特征摘要】
1.一种基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,包括如下步骤:(S1)爬取印尼新闻数据,提取每篇印尼新闻中的标题以及正文,并保存至对应印尼新闻的字段中;(S2)根据所述印尼新闻数据训练Word2Vec模型,得到新闻到向量的映射字典;(S3)根据所述新闻到向量的映射字典通过ITQ算法,得到最优旋转矩阵下的特征向量的二进制编码;(S4)根据所述新闻到向量的映射字典以及最优旋转矩阵下的特征向量的二进制编码分别计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的二进制数组成的n位签名,其中,n为二进制编码的总位数;(S5)根据所述二进制数组成的n位签名计算当前被浏览的新闻与候选数据集中每一篇印尼新闻的汉明距离;(S6)根据所述汉明距离进行排序,选取候选数据集中汉明距离最小的前m篇印尼新闻作为推荐新闻,从而完成相似新闻的推荐。2.根据权利要求1所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(S2)包括如下步骤:(a1)根据爬取的印尼新闻数据,得到使用频率最高的100000个单词,并利用Word2Vec模型计算词嵌入;(a2)根据所述词嵌入将每篇新闻转化为向量表达,从而得到新闻到向量的映射字典。3.根据权利要求1所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(S2)还包括对印尼新闻的预处理,其包括如下步骤:(b1)将印尼新闻的内容进行分词处理;(b2)根据分词处理结果,将分词中的停用语和特殊字符进行过滤,得到纯文本数据,从而完成对印尼新闻的预处理。4.根据权利要求1所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(S3)包括如下步骤:(c1)将所述新闻到向量的映射字典利用PCA进行降维处理;(c2)根据降维处理结果寻找量化误差最小的旋转矩阵,从而得到最优旋转矩阵下的特征向量的二进制编码。5.根据权利要求4所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(c1)的表达式如下:其中,为关于W的目标函数,W为协方差矩阵XTX的特征向量组成的矩阵,E为期望值,x为单个样本,ωk为sgn(·)函数的超平面参数,m为样本数,T为矩阵的转置,X为新闻词向量化后的数据集,k表示第k个sgn函数,I为单位矩阵。6.根据权利要求4所述的基于ITQ算法的印尼语相似新闻推荐方法,其特征在于,所述步骤(c2)的求解过程如下:(d1)随机初始化并固定正交矩阵R,以及更新最优解矩阵B;(d2)将所述正交矩阵R以及最优解矩阵B转化为最小化目标函数得到最优解矩阵B=sgn(VR),其中,F为F范式,tr为矩阵的迹,T为矩阵的转置,V为投影标题新闻后的矩阵且V=XW,X为新闻词向量化后的数据集,W为协方差矩阵XTX的特征向量...
【专利技术属性】
技术研发人员:杨国武,杨晓强,张庆颖,陈祥,熊菊霞,黄勇,王逸尘,刘海洋,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。