一种基于梯度提升算法的黑导游检测方法技术

技术编号:23558612 阅读:34 留言:0更新日期:2020-03-25 04:06
本发明专利技术公开一种基于梯度提升算法的黑导游检测方法,应用于数据检测领域,针对现有的旅游行业监管滞后问题,本发明专利技术通过获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;并基于获得的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;最后通过向得到的黑导游类别预测模型输入投诉文本,得到预测类型,相比于现有的人工数据检测,显著提高了检测效率。

A black tour guide detection method based on gradient lifting algorithm

【技术实现步骤摘要】
一种基于梯度提升算法的黑导游检测方法
本专利技术属于大数据处理领域,特别涉及一种基于梯度提升算法的数据检测技术。
技术介绍
最近有关国内旅游市场出现宰客、黑店、黑导游的新闻报道频发,暴露了国内旅游市场存在的恶意欺诈等问题,体现了现有旅游市场监管滞后的本质。在这个机器学习日趋成熟的时代,如何用机器学习解决旅游市场存在的监管滞后问题,通过对海量数据的收集、清洗和分析,应用机器学习解决旅游市场监管的相关问题,对旅游市场的智慧监管中的热门问题进行研究成为必然趋势。为了解决上述问题,产生了黑导游检测技术,所述黑导游检测技术具体是指根据投诉文本的内容,但是现有技术中缺乏有效的检测。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于梯度提升算法的黑导游检测方法,使用梯度提升算法把大量文本判断并归类为预先定义好的多个类别,从而有效提升旅游市场。本专利技术采用的技术方案为:一种基于梯度提升算法的黑导游检测方法,包括:A、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;B、基于步骤A的词向量模型,本文档来自技高网...

【技术保护点】
1.一种基于梯度提升算法的黑导游检测方法,其特征在于,包括:/nA、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;/nB、基于步骤A的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;/nC、向步骤B得到的黑导游类别预测模型输入投诉文本,得到预测类型。/n

【技术特征摘要】
1.一种基于梯度提升算法的黑导游检测方法,其特征在于,包括:
A、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;
B、基于步骤A的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;
C、向步骤B得到的黑导游类别预测模型输入投诉文本,得到预测类型。


2.根据权利要求1所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A包括以下分步骤:
A1、旅游新闻网发起请求,获取新闻URL数据;
A2、对新闻URL数据进行爬取新闻内容;
A3、对步骤A2得到的新闻内容进行分词,获得分词语料;
A4、根据分词语料训练得到词向量模型。


3.根据权利要求2所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A1具体为:用Postman模拟HTTP请求,设置请求参数为获取所有结果,设置文档类型为application/x-www-form-urlencoded,解析返回结果,并把每天的新闻URL数据按行进行存储。


4.根据权利要求2所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A2具体为:读取新闻URL发起HTTP请求,对返回的HTML格式的内容进行解析,...

【专利技术属性】
技术研发人员:詹瑾瑜余佳雨江维李响杨瑞刘昌澍李博智蔡玉舒周巧瑜
申请(专利权)人:电子科技大学中电科大数据研究院有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1