本发明专利技术涉及文本智能推荐计算技术领域,尤其是一种基于文本挖掘与多视角融合的个性化混合推荐方法,包括如下步骤:(1)建立评价信息与项目描述的短文本特征库、(2)建立背景数据库、(3)建立词向量表征、(4)段落向量的情感倾向性计算。本发明专利技术通过对评价信息的短文本进行拆解,提取出准确的词组、段落信息,结合背景内容的挖掘,精准分析用户的情感倾向,解决用户评价信息语义识别不准、难以精准预测用户情感倾向或是行为偏好的问题,有效、准确获取用户的需求,提高用户的体验度。提高用户的体验度。
A personalized hybrid recommendation method based on text mining and multi perspective fusion
【技术实现步骤摘要】
一种基于文本挖掘与多视角融合的个性化混合推荐方法
[0001]本专利技术涉及文本智能推荐计算
,尤其是一种基于文本挖掘与多视角融合的个性化混合推荐方法。
技术介绍
[0002]目前存在大量的用户评价信息以及项目内容描述多以短文本形式存在且情感及语义分析困难,单一视角的推荐模型容易导致推荐结果无法达到用户的满意度等问题。首先,分析用户评价信息的情感倾向,得到用户关于项目的综合评分,并在此基础上基于项目的协同过滤构建推荐模型;其次,基于词向量和深度神经网络计算项目的相似度,构建基于项目内容的推荐模型,并进一步对以上两个推荐视角进行融合,形成混合推荐模型;第三,构建基于多影响因素的半监督聚类的推荐筛选与排序模型,是较为有效的解决方案。
[0003]尤其是在电子商务、社交网络以及共享经济高速发展的今天,发现用户的需求、了解用户的行为、并为用户筛选出最相关的信息和项目是互联网服务的一个核心环节。个性化推荐作为一种帮助用户快速搜寻有用信息的工具,越来越受到人们的青睐。
[0004]传统的推荐算法通过根据用户对项目的评分进行协同过滤推荐。然而这种推荐方式受用户评分真实性的制约,依据用户评分产生推荐结果并不能准确地体现用户的偏好。通过比较用户评分和评价文本的情感倾向,指出用户评分并不能真实反映用户评价的情感倾向。如何基于短文本挖掘与多视图融合形成个性化推荐方法时急需解决的问题。
技术实现思路
[0005]为了解决现有技术中存在的问题,本专利技术提供一种基于文本挖掘与多视角融合的个性化混合推荐方法,以精准分析文本内容评估用户的情感倾向,提供个性性的推荐结果,具体技术方案如下:
[0006]一种基于文本挖掘与多视角融合的个性化混合推荐方法,包括如下步骤:
[0007](1)建立评价信息与项目描述的短文本特征库:
[0008]按照评价信息与项目描述的短文本内容将文本信息转化为可以检索的文字集合,在文字集合中按照词性进行分类,对于名词、动词、连接词逐一采集标序号;将采集到的词语与出现频率进行相关度统计,由使用频率的高低进行排列,记录词语在段落和句子中的位置、顺序;
[0009](2)建立背景数据库:
[0010](2.1)检测评价信息与项目描述短文本中出现的行业专有名词,确定短文本所属行业;通过确定出的行业范围进行比对,搜寻出与检测的短文本相似的文字内容;
[0011](2.2)使用步骤(1)中检测到的词语到网络数据库中比对,筛选出字词特征相关的片段标记保存;
[0012](3)建立词向量表征
[0013](3.1)以建立评价信息与项目描述的短文本特征库、建立背景数据库中同类词组
进行比对,构建出短文本特征库的词意关联矩阵,针对每个词意关联矩阵涉及到的短文本,形成背景数据库和短文本涉及到的词组关联逻辑链;
[0014]按照词组关联逻辑链,将短文本特征库词组变换为数字表示,形成数据集A;将背景数据库词组变换为数字表示,形成数据集B,数据集A中词组和数据集B中关联逻辑链逐一对应关系形成数据集C;
[0015]所述数据集A中词组和数据集B中关联逻辑链包括对数据集A、B中词组进行顺序化标注;将进行关联逻辑链进行词典构建,根据所述词典将所述原始文本数据变换为所述数字表示;对于特定领域的短文本,由人工进行词组标注,标准产生的背景词组和逻辑链变换成数据集用数据表示;
[0016](3.2)将词组数据的数字形式输入模型中,逐一建立向量矩阵,按照逻辑链取对应的向量,将出现频度最高的词组和相关联的背景数据库中出现频度最高的词组分别经过隐藏层得到隐藏向量,所使用的激活函数为ReLu函数;将所述隐藏向量通过线性层,计算得到中心词CBOW的输出向量;根据所述输出向量和初始输入数据获得显得数据矩阵,将数据矩阵按照逻辑关联进行排列;
[0017](4)段落向量的情感倾向性计算
[0018](4.1)将短文本转换成多维度段落向量,所得段落向量按照顺序首尾拼接得到长段落向量C1;所得段落向量按照高频词的数量从多到少顺次拼接得到长段落向量C2;
[0019](4.2)采用机器学习模型,对上一步骤中C1进行预测,获得用户情感特征概率;采用机器学习模型,对上一步骤中C2进行预测,获得用户情感特征概率;两者概率重合度为98%
‑
100%,将段落向量合并,取C1、C2计算结果的平均值;两者概率重合度为50%
‑
98%,以段落向量的C1为准,舍弃C2;两者概率重合度在50%
‑
98%的段落向量以C1为准,舍弃C2;将所得概率转化为百分制的情感倾向评分;
[0020](5)推荐视图融合及排序推荐
[0021]将步骤(3)的词向量特征数据输入计算模型得到情感预期阈值,所得阈值与背景关联文本对应,按照文本中的人口统计学信息、时间因素、地理位置、行业背景、年龄、职业、以及用户的隐式反馈信息进行基于深度神经网络的项目内容的相似度计算,并从多个视角构建混合推荐模型,进而实现推荐结果的筛选与排序。
[0022]进一步的,步骤(2)中,所述网络数据库包括微博内容、新闻讯息、咨询、文献数据库。
[0023]进一步的,步骤(2)中,所述上(2.1)与(2.2)是并行同时操作流程。
[0024]进一步的,步骤(3)中,所述词组关联逻辑链是以词组短文本中出现频率为横坐标,在背景数据库中文本内出现频率为纵坐标形成的坐标向量。
[0025]进一步的,步骤(3)中,所述特定领域包括历史古文字领域短文本、细分学科最新研究短文本、小语种文献短文本、视频转换形成的短文本。
[0026]与现有技术相比,本专利技术的技术效果体现在:
[0027]本专利技术通过对短文本信息进行拆解,提取出准确的词组、段落信息,结合背景内容的挖掘,精准分析用户的情感倾向,解决用户的短文本信息意思识别不准、难以精准预测用户情感的问题,有效解决用户需求,提高用户体验。
具体实施方式
[0028]下面结合具体的实施方式来对本专利技术的技术方案做进一步的限定,但要求保护的范围不仅局限于所作的描述。
[0029]实施例1
[0030]一种基于文本挖掘与多视角融合的个性化混合推荐方法,包括如下步骤:
[0031](1)建立评价信息与项目描述的短文本特征库:
[0032]按照评价信息与项目描述的短文本内容将文本信息转化为可以检索的文字集合,在文字集合中按照词性进行分类,对于名词、动词、连接词逐一采集标序号;将采集到的词语与出现频率进行相关度统计,由使用频率的高低进行排列,记录词语在段落和句子中的位置、顺序;以此操作构建文本词组筛选网络M=(V,E,T),其中V为筛选网络中节点的集合,E=Ur∈REr为筛选网络中边的集合,Er为交互关系类型为r的边的集合,r表示词组种类,R表示词组位置的集合且满足|R|>1,T为节点附带的文本信息的集合;以vi表示V中第i个文本,Mi=(w1,w2,...,w本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于文本挖掘与多视角融合的个性化混合推荐方法,其特征在于,包括如下步骤:(1)建立评价信息与项目描述的短文本特征库:按照评价信息与项目描述的短文本内容将文本信息转化为可以检索的文字集合,在文字集合中按照词性进行分类,对于名词、动词、连接词逐一采集标序号;将采集到的词语与出现频率进行相关度统计,由使用频率的高低进行排列,记录词语在段落和句子中的位置、顺序;(2)建立背景数据库:(2.1)检测评价信息与项目描述短文本中出现的行业专有名词,确定短文本所属行业;通过确定出的行业范围进行比对,搜寻出与检测的短文本相似的文字内容;(2.2)使用步骤(1)中检测到的词语到网络数据库中比对,筛选出字词特征相关的片段标记保存;(3)建立词向量表征(3.1)以建立评价信息与项目描述的短文本特征库、建立背景数据库中同类词组进行比对,构建出短文本特征库的词意关联矩阵,针对每个词意关联矩阵涉及到的短文本,形成背景数据库和短文本涉及到的词组关联逻辑链;按照词组关联逻辑链,将短文本特征库词组变换为数字表示,形成数据集A;将背景数据库词组变换为数字表示,形成数据集B,数据集A中词组和数据集B中关联逻辑链逐一对应关系形成数据集C;所述数据集A中词组和数据集B中关联逻辑链包括对数据集A、B中词组进行顺序化标注;将进行关联逻辑链进行词典构建,根据所述词典将所述原始文本数据变换为所述数字表示;对于特定领域的短文本,由人工进行词组标注,标准产生的背景词组和逻辑链变换成数据集用数据表示;(3.2)将词组数据的数字形式输入模型中,逐一建立向量矩阵,按照逻辑链取对应的向量,将出现频度最高的词组和相关联的背景数据库中出现频度最高的词组分别经过隐藏层得到隐藏向量,所使用的激活函数为ReLu函数;将所述隐藏向量通过线性层,计算得到中心词CBOW的输出向量;根据所述输出向量和初始输入数据获得显得数据矩阵,将数据矩阵按照逻辑关联进行排列;(4)段落向量的情感倾向性...
【专利技术属性】
技术研发人员:王喜宾,杨剑锋,张克声,郭晟南,丁阿丹,
申请(专利权)人:贵州理工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。