一种基于R语言程序的个性化推荐方法技术

技术编号:13429961 阅读:48 留言:0更新日期:2016-07-30 00:36
一种基于R语言程序对资讯进行个性化推荐的方法,其特征是具体步骤包括:1)R语言程序连接Oracle数据库,即让R语言程序能读取Oracle数据库中的数据;提取数据库中的数据,要让R语言程序能够与数据库互通,把所需要的数据读取到R语言程序中;2)数据预处理:关键词分隔符统一;需要对所给的关键词作分词,以便能够更好地提取出每个资讯以及保险的特征;3)特征权重计算;4)计算资讯与保险产品的相似度;计算出特征的权重之后,将每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度。

【技术实现步骤摘要】


本专利技术涉及个性化推荐领域,具体而言,涉及一种基于R语言程序的利用资讯进行保险产品推荐的方法。

技术介绍

随着电子商务的快速发展,商家提供的商品种类和数量急剧增长,具有明确需求的用户可以通过搜索查找想购买的商品。然而,用户需求通常具有不确定性和模糊性。如果商家能够从海量的商品中把满足用户模糊需求的商品主动推荐给用户,则有望将潜在需求转化为实际需求。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。未有在利用资讯进行保险产品推荐的应用;本专利技术希望通过对新一站资讯页进行保险产品的有效推荐,能够提高产品的点击率、销量,以及增强用户对网站的忠诚度。采用的开发环境具有Oracle数据库,R语言,Windows。

技术实现思路

本专利技术目的是,主要给出了一种基于R语言程序对资讯(如新一站网站等)进行个性化推荐的方法,基于高效数据统计分析的基础得到匹配的资讯,提高了保险产品被用户了解并被接受的效率。
本专利技术技术方案是:一种基于R语言程序对资讯进行个性化推荐的方法,具体步骤主要包括:
1)R语言程序连接Oracle数据库,即让R语言程序可以读取Oracle数据库中的数据;
首先需要提取数据库中的数据,为此要让R语言程序能够与数据库互通,把所需要的数据读取到R语言程序中:
资讯与保险产品的相关数据都存储在Oracle数据库中,安装ODBC驱动程序并在Windows数据源管理器中添加数据源,并在R语言程序中下载RODBC包,从而实现R语言程序连接Oracle数据库;
2)数据预处理
Oracle数据库读取进来的原始数据与所需要的数据格式不相符,需要对其做预处理,
此步骤主要包括两个方面:
2-1)关键词分隔符统一
原始数据中给出了资讯以及保险产品的关键词,这些关键词多数以中文逗号分隔,也存在着其它的分隔符,比如英文逗号、顿号、空格,为了利于后续的分析,统一把分隔符转化为中文逗号;
2-3)中文分词
原始数据中虽然给出了关键词,但是这些关键词的代表性并不强,为此需要对所给的关键词作分词,以便能够更好地提取出每个资讯以及保险的特征,使得这些特征可以描述资讯以及保险产品的核心信息;
加入特定的分词库,即从搜狗输入法首页下载与保险相关的词库载入到R语言程序中,加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称;
经过上述两个过程的预处理,得到了需要的数据格式,进行下一步分析;
3)特征权重计算
每一个特征在相对应的资讯或者保险产品中的权重是不一样的,为此我们要找到一个指标来代表特征权重的大小;在此处应用TF_IDF指标来计算每一个特征的权重;TF_IDF用来作为一个词在文档或整个查询词组的权重的重要程度(计算方式),是信息检索与数据挖掘的常用加权技术;某个词对文档的重要性越高,它的TF_IDF值就会越大;TF词频指的是某一个给定的词语在该文档中出现的次数,这个数字通常会被正规化,以防止它偏向长的文档;逆向文档频率IDF是一个词语普遍重要性的度量;某一特定词语的IDF,由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到,TF乘上IDF即是TF_IDF值;TF_IDF定义是:如果一个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为这个词具有很好的区分能力,能够比较好的代表这篇文档所要表达的中心思想;
如对于保险产品包括8个关键词,而保险产品总数是585,包含“意外”这一关键词的保险产品总数为203,此时计算“意外”这一关键词的TF_IDF值:
TF=2/8=0.25
IDF=lg(585/203)=0.460
TF_IDF=TF*IDF=0.115
所以“意外”这一特征在此保险产品中的权重为0.115;
4)计算资讯与保险产品的相似度
在衡量了特征权重大小之后,每一篇资讯以及保险产品都可以用特征所组成的维度空间中的向量去表示,每个向量元素的大小代表此特征的TF_IDF值。对于每一个资讯,算出其与每个保险产品的相似度大小,并对相似度进行降序排序,从而给出与每个资讯相似度最大的两个保险产品。
当4)中计算出特征的权重之后,将每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度;
所有保险产品的特征的权重看作一个向量:
P={t1,t2,……,tN本文档来自技高网
...

【技术保护点】
一种基于R语言程序对资讯进行个性化推荐的方法,其特征是具体步骤包括:1)R语言程序连接Oracle数据库,即让R语言程序能读取Oracle数据库中的数据;提取数据库中的数据,要让R语言程序能够与数据库互通,把所需要的数据读取到R语言程序中:资讯与保险产品的相关数据都存储在Oracle数据库中,安装ODBC驱动程序并在Windows数据源管理器中添加数据源,并在R语言程序中下载RODBC包,从而实现R语言程序连接Oracle数据库;2)数据预处理:Oracle数据库读取进来的原始数据与所需要的数据格式不相符,需要对其做预处理,此步骤主要包括两个方面:2‑1)关键词分隔符统一:原始数据中给出了资讯以及保险产品的关键词,这些关键词多数以中文逗号分隔,也存在着其它的分隔符,比如英文逗号、顿号、空格,为了利于后续的分析,统一把分隔符转化为中文逗号;2‑2)中文分词处理:原始数据中虽然给出了关键词,但是这些关键词的代表性并不强,为此需要对所给的关键词作分词,以便能够更好地提取出每个资讯以及保险的特征,使得这些特征可以描述资讯以及保险产品的核心信息;加入特定的分词库,即从搜狗输入法首页下载与保险相关的词库载入到R语言程序中,加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称;经过上述两个过程的预处理,得到了需要的数据格式,进行下一步分析;3)、特征权重计算:每一个特征在相对应的资讯或者保险产品中的权重是不一样的,为此我们要找到一个指标来代表特征权重的大小;在此处应用TF_IDF指标来计算每一个特征的权重;TF_IDF用来作为一个词在文档或整个查询词组的权重的重要程度,是信息检索与数据挖掘的常用加权技术;某个词对文档的重要性越高,它的TF_IDF值就会越大;TF词频指的是某一个给定的词语在该文档中出现的次数,这个数字通常会被正规化,以防止它偏向长的文档;逆向文档频率IDF是一个词语普遍重要性的度量;某一特定词语的IDF,由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到,TF乘上IDF即是TF_IDF值;TF_IDF定义是:如果一个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为这个词具有很好的区分能力,能够比较好的代表这篇文档所要表达的中心思想;4)计算资讯与保险产品的相似度:在衡量了特征权重大小之后,每一篇资讯以及保险产品都可以用特征所组成的维度空间中的向量去表示,每个向量元素的大小代表此特征的TF_IDF值。对于每一个资讯,算出其与每个保险产品的相似度大小,并对相似度进行降序排序,从而给出与每个资讯相似度最大的两个保险产品;5)4)中计算出特征的权重之后,将每个特征作为一个维度,而特征的归一化权重作为其值,这样每个资讯以及保险产品就构成了特征空间图,其相似度就是两个空间图的接近程度。...

【技术特征摘要】
1.一种基于R语言程序对资讯进行个性化推荐的方法,其特征是具体步骤包括:
1)R语言程序连接Oracle数据库,即让R语言程序能读取Oracle数据库中的数据;提
取数据库中的数据,要让R语言程序能够与数据库互通,把所需要的数据读取到R语言
程序中:
资讯与保险产品的相关数据都存储在Oracle数据库中,安装ODBC驱动程序并在
Windows数据源管理器中添加数据源,并在R语言程序中下载RODBC包,从而实现R语
言程序连接Oracle数据库;
2)数据预处理:Oracle数据库读取进来的原始数据与所需要的数据格式不相符,需要
对其做预处理,此步骤主要包括两个方面:
2-1)关键词分隔符统一:
原始数据中给出了资讯以及保险产品的关键词,这些关键词多数以中文逗号分隔,也存
在着其它的分隔符,比如英文逗号、顿号、空格,为了利于后续的分析,统一把分隔符
转化为中文逗号;
2-2)中文分词处理:
原始数据中虽然给出了关键词,但是这些关键词的代表性并不强,为此需要对所给的关
键词作分词,以便能够更好地提取出每个资讯以及保险的特征,使得这些特征可以描述
资讯以及保险产品的核心信息;
加入特定的分词库,即从搜狗输入法首页下载与保险相关的词库载入到R语言程序
中,加入的词库包括保险专业词汇、财产保险、保险法实务术语、保险公司名称;经过
上述两个过程的预处理,得到了需要的数据格式,进行下一步分析;
3)、特征权重计算:每一个特征在相对应的资讯或者保险产品中的权重是不一样的,为
此...

【专利技术属性】
技术研发人员:吴海龙
申请(专利权)人:焦点科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1