基于文本挖掘的在线旅游点评质量监测方法技术

技术编号:28560779 阅读:60 留言:0更新日期:2021-05-25 17:55
本发明专利技术提供一种基于文本挖掘的在线旅游点评质量监测方法,属于定量指标评价技术领域,先将点评评价的文本进行质量的量化,具体包括五个方面:主题词汇的涵盖,点评文本的分词数量,点评赞数量,点评中的照片数量,点评分偏移程度。进而对这五个指标进行加权汇总,计算点评质量的最终得分。最后,按照点评质量指标分值的优先顺序显示点评内容。

【技术实现步骤摘要】
基于文本挖掘的在线旅游点评质量监测方法
本专利技术涉及文本挖掘、定量指标评价、自动推荐评价领域,尤其涉及一种基于文本挖掘的在线旅游点评质量监测方法。
技术介绍
文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、客户电子邮件、问题查询、网页等),抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论目前研究和应用最多的几种文本挖掘技术有:文档聚类、文档分类和摘要抽取。1)文档聚类首先,文档聚类可以发现与某文档相似的一批文档,帮助知识工作者发现相关知识;其次,文档聚类可以将一个文档聚类成若干个类,提供一种组织文档集合的方法;再次,文档聚类还可以生成分类器以对文档进行分类。r>聚类方法通常有:本文档来自技高网...

【技术保护点】
1.一种基于文本挖掘的在线旅游点评质量监测方法,其特征在于,/n首先将点评评价的文本进行质量的量化,包括五个方面:主题词汇的涵盖,点评文本的分词数量,点评赞数量,点评中的照片数量,点评分偏移程度;/n进而对这五个指标进行加权汇总,计算点评质量的最终得分;/n最后,按照点评质量指标分值的优先顺序显示点评内容。/n

【技术特征摘要】
1.一种基于文本挖掘的在线旅游点评质量监测方法,其特征在于,
首先将点评评价的文本进行质量的量化,包括五个方面:主题词汇的涵盖,点评文本的分词数量,点评赞数量,点评中的照片数量,点评分偏移程度;
进而对这五个指标进行加权汇总,计算点评质量的最终得分;
最后,按照点评质量指标分值的优先顺序显示点评内容。


2.根据权利要求1所述的方法,其特征在于,
主题词汇的涵盖:点评文本需要对产品特有的主题进行涵盖描述,针对在线旅游这个特有品类的产品,确定了4个主题词汇即:餐饮、服务、住宿、玩乐,将每个相关词汇收集整理,若点评文本出现了相关词语则认为有相关主题词汇的描述;主题词汇满分1分,少一项扣除0.25分,以此类推;
具体操作步骤如下:
1)定义清理文本数据的函数dataclean:去除url、去空格、清除英文字符;
2)定义分片段并打上标识函数:splitsentence;
3)在R语言开发环境中,下载工具包,并加载;
4)定义用户字典、停止词、数据源等文本对象;
5)导入质量指标相关词词典;
6)导入文本;
7)数据清理,分句并转换成数据框;
8)计算主题覆盖的分数。


3.根据权利要求1所述的方法,其特征在于,
点评文本的分词数量:删除无效词汇再看文本单词的数量,数量越大,该条点评分值越高;
将点评词的无意义词汇去掉,得到点评内容真实有效的部分,然后进行分词,统计出每条点评的词汇个数,再计算20%、40%、60%、80%分位数,最后在每个分位数区间有小到大给予0.2、0.4、0.6、0.8、1的分值。


4.根据权利要求3所述的方法,其特征在于,
利用文本的分词数据量计算评论得分如下:
segwordnum<as.data.frame(segworddata%>%group_by(id_tot)%>%summarise(n_distinct(term,na.rm=TRUE)))
names(segwordnum)[2]<-"segword_num"
segword_num<-segwordnum$segword_num
segword_num_q2<-quantile(segword_num,0.2)
segword_num_q4<-quantile(segword_num,0.4)
segword_num_q6<-quantile(segword_num,0.6)
segword_num_q8<-quantile(segword_num,0.8)
segword_num_q10<-quantile(segword_num,1)
segwordnum[which(segword_num>=0&segword_num<=segword_num_q2),]$segwordnum_flag<-0.2
segwordnum[which(segword_num>segword_num_q2&segword_num<=segword_num_q4),]$segwordnum_flag<-0.4
segwordnum[which(segword_num>segword_num_q4&segword_num<=segword_num_q6),]$segwordnum_flag<-0.6
segwordnum[which(segword_num>segword_num_q6&segword_num<=segword_num_q8),]$segwordnum_flag<-0.8
segwordnum[which(segword_num>segword_num_q8&segword_num<=segword_num_q10),]$segwordnum_flag<-1。


5.根据权利要求1所述的方法,其特征在于,
点评赞数量:计算所有点评的点赞数,再计算20%、40%、60%、80%分位数,该条评论若没有点赞则记为0分,点赞小于20%分位数记为0.2分,以此类推;
利用点评赞数计算评论质量分数如下:
positive_num<-content$positivenum
positive_num_q2<-quantile(positive_num,0.2)+0.001
positive_num_q4<-quantile(positive_num,0.4)+0.001
positive_num_q6<-quantile(positive_num,0.6)+0.001
positive_num_q8<-quantile(positive_num,0.8)+0.0...

【专利技术属性】
技术研发人员:李起昊刘方文郑敏
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1