一种基于隐喻主题挖掘的景区评价知识库构建方法技术

技术编号:23983751 阅读:38 留言:0更新日期:2020-04-29 12:32
本发明专利技术公开一种基于隐喻主题挖掘的景区评价知识库构建方法,包括:S1、采用景区隐性主题挖掘算法构建景区隐性多主题知识库;S2、采用景区隐喻主题特征挖掘算法构建景区的隐喻多主题知识库;S3、基于景区语料库的语义搭配计算模型构建景区评价知识库,并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别;本发明专利技术通过构建的顾及隐喻信息的景区评价知识库,能够较为精确的判断互联网旅游网站中每条评论的细粒度主题及对应主题的情感倾向信息,用于向游客提供数据支撑,辅助游客做出符合自己偏好性的决策,还能够辅助景区管理者提高景区服务,提升景区网络口碑。

A method of constructing knowledge base of scenic spot evaluation based on metaphor theme mining

【技术实现步骤摘要】
一种基于隐喻主题挖掘的景区评价知识库构建方法
本专利技术涉及大数据分析
,特别是涉及一种基于隐喻主题挖掘的景区评价知识库构建方法。
技术介绍
随着旅游互联网的蓬勃发展,越来越多的游客会在旅行的过程中使用社交媒体平台记录旅途行程中的游览经历,真实的记录了自己在旅游过程中的所见所闻所感,这些信息多数以文本或图片形式存在于互联网的各旅游网站或者社交平台上,这些信息能够实时的反映出景区在不同主题指标上的变化,能够为游客的旅游路线及偏好提供大数据分析支持,也能够为景区的管理者在提升景区服务方面提供帮助。目前国内外研究者针对旅游在线评论的研究多集中关注酒店业,对其他研究对象关注较少。有些学者关注了景区评论但分析的粒度较粗,仅从浅层关注了游客的满意度而没有细粒度的针对大量的评论数据逐条分析研究,无法细粒度的反映出景区的每项主题指标随时间的变化,无法及时向旅游管理者提供知识支撑。从互联网旅游网站的海量评论信息中抽取细粒度的主题情感信息,通常这些信息具有口语性强、语义信息破碎度高等特征且在一个文本中会出现多个主题。基于传统的监督学习的方法需要大量的人工手工标注工作,而基于传统的基于规则的方法,目前的研究中还没有针对旅游领域的语料做出通用的规则,其他领域的规则无法移植到旅游领域。
技术实现思路
本专利技术的目的是提供一种基于隐喻主题挖掘的景区评价知识库构建方法,以解决上述现有技术存在的问题,能够对细粒度主题的感情倾向进行快速准确识别。为实现上述目的,本专利技术提供了如下方案:本专利技术提供一种基于隐喻主题挖掘的景区评价知识库构建方法,包括如下步骤:S1、采用景区隐性主题挖掘算法(Scenichiddentopicminingalgorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;S2、采用景区隐喻主题特征挖掘算法(Scenicmetaphortopicfeatureminingalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。优选地,所述步骤S1景区隐性多主题知识库的构建方法具体包括:首先构建景区显性多主题知识库,其次采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库。优选地,所述SHTMA的具体流程包括:首先,对游客评论语料进行预处理,获取隐性主题词候选词库;其次,通过SHTMA词向量模型计算显性主题词与隐性主题词候选词库中词语的相似度,根据相似度挖掘隐性主题词,挖掘出的隐性主题词构成隐性多主题知识库,具体包括:先使用评论语料训练词向量模型,再将显性主题词输入训练好的词向量模型,经过词向量模型的计算,得到隐性主题词候选词库中词与输入的显性主题词的语义特征相似度,根据语义特征相似度挖掘隐性主题词,并组成候选的隐性主题词。优选地,所述步骤S2中隐喻主题词及隐喻主题特征的挖掘方法具体包括:首先,从语料库中筛选出针对各主题的景区评论语料,景区评论语料包括基础主题词、隐喻主题词、隐喻主题特征,将语料中的句子按照标点符号分成短句;其次,基于SMTFMA,使用处理后的语料训练分类器模型,并使用训练后的分类器模型从景区评论语料中识别并挖掘隐喻主题词及隐喻主题特征,构建隐喻多主题知识库。优选地,所述SMTFMA的具体流程包括:首先,基于基础多主题知识库,对基于显性主题、隐性主题及隐喻主题特征的语料进行人工标注;其次,通过人工标注的景区评论语料的隐喻特征对SMTFMA条件随机场分类器进行训练,根据训练后的条件随机场分类器计算未经标注语料在特定特征词出现的情况下,待计算特征词出现的概率,根据特征词出现的概率识别指定词的隐喻主题词及隐喻主题特征。优选地,所述步骤S3构建景区评价知识库的具体方法包括:首先,构建旅游情感词典知识库;其次,基于景区多主题知识库及旅游情感词典知识库,采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配,形成主题词与情感词之间一对多的搭配形式,并以SQL形式存放在数据库之中,构建景区评价知识库。优选地,所述采用景区语料库的语义搭配计算模型进行情感词与主题词的搭配的具体方法包括:首先,计算主题词与情感词的共现度,如式1所示;其中,T表示主题词,E表示情感词,f(T,E)表示主题词与情感词在语料中出现在同一语句的句子个数,f(T)表示主题词在语料中单独出现的句子个数,f(E)表示情感词在语料中单独出现的句子个数,W(T,E)表示主题词与情感词的共现度;其次,对主题词与情感词构成的搭配进行优化:主题词与情感词共现度的阈值为H,0<H<1,当主题词与情感词在旅游领域语料库的共现度大于阈值H时,视为该主题词与该情感词能构成搭配,小于阈值H时,视为不能构成搭配并将其删除,完成主题词与情感词搭配的优化,构建与主题词对应的情感词词库。本专利技术公开了以下技术效果:本专利技术采用景区隐性主题挖掘算法(Scenichiddentopicminingalgorithm,SHTMA)、景区隐喻主题特征挖掘算法(Scenicmetaphortopicfeatureminingalgorithm,SMTFMA)及景区语料库的语义搭配计算模型辅助构建景区评价知识库,通过构建的顾及隐喻信息的景区评价知识库能够较为精确的判断互联网旅游网站中每条评论的细粒度主题及对应主题的情感倾向信息,通过结合时间和空间维度综合做出分析,能够详细的统计出各景区在每个主题的表现情况,用于向游客提供数据支撑,辅助游客做出符合自己偏好性的决策,还能够辅助景区管理者提高景区服务,提升景区网络口碑。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术景区评价知识库构建方法流程图;图2为本专利技术隐性多主题的挖掘算法流程图;图3为本专利技术隐喻主题语料标注示例图;图4为本专利技术隐喻主题挖掘算法流程图;图5本文档来自技高网...

【技术保护点】
1.一种基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,包括如下步骤:/nS1、采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;/nS2、采用景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;/nS3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。/n...

【技术特征摘要】
1.一种基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,包括如下步骤:
S1、采用景区隐性主题挖掘算法(Scenichiddentopicminingalgorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;
S2、采用景区隐喻主题特征挖掘算法(Scenicmetaphortopicfeatureminingalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;
S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。


2.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述步骤S1景区隐性多主题知识库的构建方法具体包括:
首先构建景区显性多主题知识库,其次采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库。


3.根据权利要求2所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述SHTMA的具体流程包括:
首先,对游客评论语料进行预处理,获取隐性主题词候选词库;其次,通过SHTMA词向量模型计算显性主题词与隐性主题词候选词库中词语的相似度,根据相似度挖掘隐性主题词,挖掘出的隐性主题词构成隐性多主题知识库,具体包括:先使用评论语料训练词向量模型,再将显性主题词输入训练好的词向量模型,经过词向量模型的计算,得到隐性主题词候选词库中词与输入的显性主题词的语义特征相似度,根据语义特征相似度挖掘隐性主题词,并组成候选的隐性主题词。


4.根据权利要求1所述的...

【专利技术属性】
技术研发人员:解吉波杨腾飞林振宇李国庆
申请(专利权)人:中国科学院遥感与数字地球研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1