【技术实现步骤摘要】
一种基于隐喻主题挖掘的景区评价知识库构建方法
本专利技术涉及大数据分析
,特别是涉及一种基于隐喻主题挖掘的景区评价知识库构建方法。
技术介绍
随着旅游互联网的蓬勃发展,越来越多的游客会在旅行的过程中使用社交媒体平台记录旅途行程中的游览经历,真实的记录了自己在旅游过程中的所见所闻所感,这些信息多数以文本或图片形式存在于互联网的各旅游网站或者社交平台上,这些信息能够实时的反映出景区在不同主题指标上的变化,能够为游客的旅游路线及偏好提供大数据分析支持,也能够为景区的管理者在提升景区服务方面提供帮助。目前国内外研究者针对旅游在线评论的研究多集中关注酒店业,对其他研究对象关注较少。有些学者关注了景区评论但分析的粒度较粗,仅从浅层关注了游客的满意度而没有细粒度的针对大量的评论数据逐条分析研究,无法细粒度的反映出景区的每项主题指标随时间的变化,无法及时向旅游管理者提供知识支撑。从互联网旅游网站的海量评论信息中抽取细粒度的主题情感信息,通常这些信息具有口语性强、语义信息破碎度高等特征且在一个文本中会出现多个主题。基于传统的监督学习的方法需要大量的人工手工标注工作,而基于传统的基于规则的方法,目前的研究中还没有针对旅游领域的语料做出通用的规则,其他领域的规则无法移植到旅游领域。
技术实现思路
本专利技术的目的是提供一种基于隐喻主题挖掘的景区评价知识库构建方法,以解决上述现有技术存在的问题,能够对细粒度主题的感情倾向进行快速准确识别。为实现上述目的,本专利技术提供了如下方案:本专利技术提 ...
【技术保护点】
1.一种基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,包括如下步骤:/nS1、采用景区隐性主题挖掘算法(Scenic hidden topic mining algorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;/nS2、采用景区隐喻主题特征挖掘算法(Scenic metaphor topic feature miningalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;/nS3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式 ...
【技术特征摘要】
1.一种基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,包括如下步骤:
S1、采用景区隐性主题挖掘算法(Scenichiddentopicminingalgorithm,SHTMA)构建景区隐性多主题知识库:根据显性主题词从景区评论语料中挖掘隐性主题词,构建景区隐性多主题知识库;其中,显性主题词与隐性主题词共同构成了基础多主题知识库;
S2、采用景区隐喻主题特征挖掘算法(Scenicmetaphortopicfeatureminingalgorithm,SMTFMA)构建景区的隐喻多主题知识库:所述隐喻多主题知识库由隐喻主题词及隐喻主题特征两部分组成,根据步骤S1中得到的基础多主题知识库,从景区评论语料中挖掘隐喻主题词及隐喻主题特征,构建景区的隐喻多主题知识库;将隐喻主题词与基础多主题知识库进行整合,得到景区多主题知识库,将隐喻主题特征与情感词库整合得到景区情感词知识库;
S3、构建景区评价知识库:基于景区语料库的语义搭配计算模型来计算景区主题词与情感词之间的搭配关系,并对主题词与情感词构成的搭配进行优化,使景区主题词与情感词形成一对多的搭配,以知识树的形式进行存放,构建景区评价知识库;并基于景区评价知识库对游客评论数据所属的主题及在该主题下对应的情感倾向进行识别。
2.根据权利要求1所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述步骤S1景区隐性多主题知识库的构建方法具体包括:
首先构建景区显性多主题知识库,其次采用SHTMA,把基于各主题的显性主题词作为种子词,从景区评论语料中挖掘提取语料中包含的隐性主题词,构建隐性多主题知识库。
3.根据权利要求2所述的基于隐喻主题挖掘的景区评价知识库构建方法,其特征在于,所述SHTMA的具体流程包括:
首先,对游客评论语料进行预处理,获取隐性主题词候选词库;其次,通过SHTMA词向量模型计算显性主题词与隐性主题词候选词库中词语的相似度,根据相似度挖掘隐性主题词,挖掘出的隐性主题词构成隐性多主题知识库,具体包括:先使用评论语料训练词向量模型,再将显性主题词输入训练好的词向量模型,经过词向量模型的计算,得到隐性主题词候选词库中词与输入的显性主题词的语义特征相似度,根据语义特征相似度挖掘隐性主题词,并组成候选的隐性主题词。
4.根据权利要求1所述的...
【专利技术属性】
技术研发人员:解吉波,杨腾飞,林振宇,李国庆,
申请(专利权)人:中国科学院遥感与数字地球研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。