【技术实现步骤摘要】
一种基于内容特征抽取的缓解推荐系统冷启动问题的方法
本专利技术涉及一种基于内容特征抽取的缓解推荐系统冷启动问题的方法。
技术介绍
目前随着互联网技术的高速发展,信息过载的问题愈专利技术显,新兴服务在没有用户历史评分的情况下,很难找到合适的用户群进行推荐,用户也在众多服务中,很难接触到最新上线有很大几率适合该用户的服务,这就是在推荐系统领域中应用最广泛的协同过滤推荐算法中伴随的常见的冷启动的问题。
技术实现思路
本专利技术的目的是提供一种基于内容特征抽取的缓解推荐系统冷启动问题的方法,主要解决无历史评分物品推荐的问题,根据抽取到的物品内容特征间的词距离,从而计算物品间相似度的混合推荐方法。上述的目的通过以下的技术方案实现:一种基于内容特征抽取的缓解推荐系统冷启动问题的方法,在内容特征抽取时,采用自然语言处理中依存句法分析的方法,对项目的描述信息特征进行抽取,并将抽取的内容特征转化为词向量;其次,考虑到在实际情况下,各个词的重要程度有所不同,因此使用TF-IDF方法对词距离算法进行优化,以此提 ...
【技术保护点】
1.一种基于内容特征抽取的缓解推荐系统冷启动问题的方法,其特征是:在内容特征抽取时,采用自然语言处理中依存句法分析的方法,对项目的描述信息特征进行抽取,并将抽取的内容特征转化为词向量;/n其次,考虑到在实际情况下,各个词的重要程度有所不同,因此使用基于TF-IDF优化后的加权词距离算法(Weighted Word Mover’s Distance, WWMD),以此提高对内容特征向量词距离计算的精确度,从而提高物品之间相似度的精确度;/n最后,结合使用词距离计算出的相似度与传统相似度计算的方法,进行推荐。/n
【技术特征摘要】
1.一种基于内容特征抽取的缓解推荐系统冷启动问题的方法,其特征是:在内容特征抽取时,采用自然语言处理中依存句法分析的方法,对项目的描述信息特征进行抽取,并将抽取的内容特征转化为词向量;
其次,考虑到在实际情况下,各个词的重要程度有所不同,因此使用基于TF-IDF优化后的加权词距离算法(WeightedWordMover’sDistance,WWMD),以此提高对内容特征向量词距离计算的精确度,从而提高物品之间相似度的精确度;
最后,结合使用词距离计算出的相似度与传统相似度计算的方法,进行推荐。
2.根据权利要求1所述的基于内容特征抽取的缓解推荐系统冷启动问题的方法,其特征是:基于自然语言处理的内容特征抽取方法包括:将物品中的描述信息以及更新功能描述信息进行内容特征分析,通过自然语言处理中的词性标注与依存句法分析,对物品信息的内容特征进行抽取;
首先,将物品特征文本进行分词,将分词后的每个词进行词性标注;其次,根据分词后对每一个词语进行的词性标注,对物品的特征文本进行依存句法分析,分析出文本中各词之间的关系。
3.根据权利要求1或2所述的基于内容特征抽取的缓解推荐系统冷启动问题的方法,其特征是:基于TF-IDF优化后的加权词距离算法的内容特征相似度计算方法包括如下步骤:
(1)设有一个训练好的特征词向量矩阵,一共有n个词,第i列代表第i个词的d维词向量,词i和词j的欧式距离为,;
(2)一条用于描述服务的内容特征文本经由skip-gram模型处理,可以用稀疏向量作为其词袋表示,设在该内容特征文本中,词出现了次,在中出现的所有词的次数之和为,则词的TF值为;
(3)设语料库中的内容特征文本总数为,包含词的文本数量为,则词的IDF值为,服务的内容特征描述文本中,词的TF-IDF值为;
(4)设有两个服务a和b,令和分别代表要计算的两条内容特征文本的词袋表示,中的每个词都可以全部或部分转移到中,定义一个稀疏的转移矩阵,则表示有多少从中的词转移到中的词,,因此其转移代价和为;
(5)考虑词距离算...
【专利技术属性】
技术研发人员:陈佳雯,张宏国,马超,
申请(专利权)人:哈尔滨理工大学,
类型:发明
国别省市:黑龙江;23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。