基于二次人工智能算法的景区评估方法及模型技术

技术编号:24171703 阅读:36 留言:0更新日期:2020-05-16 03:10
本发明专利技术公开了一种基于二次人工智能算法的景区评估方法及模型,涉及人工智能技术领域,解决了景区评估模型不够客观实时性较差的技术问题,其技术方案要点是通过大数据的批处理方式对数据进行标准化处理,再通过“两层”机器学习,第一层即监督机器学习,使用Bert自然语言处理模型解决常规的自然语言处理,第二层是无监督机器学习,解决剩余无法标记的部分评论的分类和标签建立;再融合知识图谱技术,大数据技术等将景区评论数据进行序列化、语义解析、向量化,构建无监督机器学习的评估特征库,从而构建基于评论数据的高效、精准的景区评估模型。

【技术实现步骤摘要】
基于二次人工智能算法的景区评估方法及模型
本公开涉及人工智能
,尤其涉及一种基于二次人工智能算法的景区评估方法及模型。
技术介绍
当前景区评估体系常用的方法有两种,一是采用多维数据分析手段针对不同景区类型预设评估指标体系,从区域条件、环境、交通、经济发展、客源等多个维度进行交叉分析评估;二是基于游客评价的分词技术通过词频计算游客对景区的满意度,即“情感分析”,它在一定程度上具备客观的量化分析能力,利用监督学习在自然语言识别的基础上,通过预设规则评估游客的满意度情况,但它的重心还是在游客体验,更多的是游客分析。上述两种方法的主要缺陷在于:1)需要支撑的数据量多,且所需数据的行业跨度大(景区、酒店、交通、运营商等),数据整合及获取难度大。2)景区相关维度较多,例如时间、气象、位置、服务、价格、交通、设施设备、规模、景区类型、安全、管理、消防等,并且数据分布极为稀疏,增加了分析难度也严重影响了计算效率。3)所谓“情感分析”实质是基于游客分析,只能从单一方面反映景区情况,另外,虽然采用了监督学习手段,仍然比较依赖人工根据行业经验去提取特征库,因此分析略显粗浅,难以做到公正、客观、全面、精准地评估;同时,景区评论数据带有很强的主观性(例如刷屏、刷单)、多意性、随意性和难以量化等特性,例如有些频次低的数据反而更能反映问题,若采用常规的“数据清洗”就很容易作为异常值给排除,还有同样的字、词、符号放在不同的语境中可能是相反的两个意思,在这些场景下,原有的评估方式难以实现对景区的正确评估。4)不能分析识别并输出景区“好”与“不好”的具体原因。
技术实现思路
本公开提供了一种基于二次人工智能算法的景区评估方法及模型,其技术目的是:实现自动化、系统化、全面的、客观的、可逆的、动态的基于评论数据的景区评估方法及模型,并输出景区优劣的具体原因。本公开的上述技术目的是通过以下技术方案得以实现的:一种基于二次人工智能算法的景区评估方法,包括:获取数据后进行预处理;将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组;将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;将所述第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;将所述第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型;将所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。进一步地,所述预处理的方法为ETL,通过ETL进行数据清洗和数据标准化。进一步地,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。进一步地,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。进一步地,所述无监督机器学习的方法包括聚类分析算法和极大似然估计算法。一种基于二次人工智能算法的景区评估模型,包括:数据采集模块,获取数据;数据处理模块,包括预处理单元和抽样单元,所述预处理单元对数据进行预处理,所述抽样单元将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行抽样分组;第一Bert自然语言处理模型,对分组后的训练集数据分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;分类模块,包括知识图谱单元和无监督机器学习单元,所述知识图谱单元和无监督机器学习单元分别对所述第一Bert自然语言处理模型无法标记的训练集数据进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;第二Bert自然语言处理模型,对所述第一标记结果、第二标记结果和第三标记结果进行训练,得到预训练模型;混合运算模块,对所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。进一步地,所述预处理单元使用ETL对数据进行数据清洗和数据标准化。进一步地,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。进一步地,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。进一步地,所述无监督机器学习单元包括聚类分析单元和极大似然估计单元。本公开的有益效果在于:本公开通过大数据的批处理方式对数据进行标准化处理,再通过“两层”机器学习,第一层即监督机器学习,使用Bert自然语言处理模型解决常规的自然语言处理,第二层是无监督机器学习,解决剩余无法标记的部分评论的分类和标签建立;再融合知识图谱技术,大数据技术等将景区评论数据进行序列化、语义解析、向量化,构建无监督机器学习的评估特征库,从而构建基于评论数据的高效、精准的景区评估模型,同时通过反向分析策略,输出景区具体的“好与不好”的原因。附图说明图1为本公开方法流程图;图2为数据抽样流程图;图3为特征处理和模型训练流程图;图4为景区评估模型训练流程图;图5为本公开系统示意图。具体实施方式下面将结合附图对本公开技术方案进行详细说明。在本公开的描述中,需要理解的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明所指示的技术特征的数量,仅用来区分不同的组成部分。图1为本公开方法流程图,获取数据后进行预处理,将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组。将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,那么特征处理得到分类器模型和特征向量,模型训练则得到第一景区评估模型和训练集数据的第一标记结果。然后将第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,无监督机器学习采用了极大似然估计的算法。将第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型,再将预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型,该第二景区评估模型即最终的景区评估模型。使用Bert自然语言处理模型进行分类或训练的模型参数是不一样的,因而本公开采用“第一”和“第二”对Bert自然语言处理模型以做区分,以下描述中将不做具体区分,本领域技术人员可以具体情况作理解区分。数据获取和预处理的过程包括数据采集、数据清洗和数据标准化。构建统一的数据接入接口,本文档来自技高网
...

【技术保护点】
1.一种基于二次人工智能算法的景区评估方法,其特征在于,包括:/n获取数据后进行预处理;/n将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组;/n将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;/n将所述第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;/n将所述第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型;/n将所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。/n

【技术特征摘要】
1.一种基于二次人工智能算法的景区评估方法,其特征在于,包括:
获取数据后进行预处理;
将预处理后的数据分为训练集数据、验证集数据和测试集数据,并将符合正态分布的训练集数据进行分组;
将分组后的训练集数据逐步输入到第一Bert自然语言处理模型分别进行特征处理和模型训练,所述特征处理得到分类器模型和特征向量,所述模型训练得到第一景区评估模型和所述训练集数据的第一标记结果;
将所述第一Bert自然语言处理模型无法标记的训练集数据分别通过知识图谱技术和无监督机器学习进行分类,分别得到第二标记结果和第三标记结果,其中,所述无监督机器学习采用极大似然估计的算法;
将所述第一标记结果、第二标记结果和第三标记结果输入到第二Bert自然语言处理模型进行训练,得到预训练模型;
将所述预训练模型、分类器模型、特征向量和第一景区评估模型进行模型嵌入后相互监督学习,得到第二景区评估模型。


2.如权利要求1所述的基于二次人工智能算法的景区评估方法,其特征在于,所述预处理的方法为ETL,通过ETL进行数据清洗和数据标准化。


3.如权利要求2所述的基于二次人工智能算法的景区评估方法,其特征在于,所述分类器模型包括序列标注模型、双句分析模型和单句分析模型。


4.如权利要求3所述的基于二次人工智能算法的景区评估方法,其特征在于,所述特征向量包括字/词/符号向量、句向量、文本向量和位置向量。


5.如权利要求4所述的基于二次人工智能算法的景区评估方法,其特征在于,所述无监督机器学习的方法包括聚类分析算法和极大似然估计算法。


6.一种基于二次人工智能算法的景区评估模型,其特征在于,...

【专利技术属性】
技术研发人员:陈勇良
申请(专利权)人:马上游科技股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1