【技术实现步骤摘要】
一种基于梯度提升算法的黑导游检测方法
本专利技术属于大数据处理领域,特别涉及一种基于梯度提升算法的数据检测技术。
技术介绍
最近有关国内旅游市场出现宰客、黑店、黑导游的新闻报道频发,暴露了国内旅游市场存在的恶意欺诈等问题,体现了现有旅游市场监管滞后的本质。在这个机器学习日趋成熟的时代,如何用机器学习解决旅游市场存在的监管滞后问题,通过对海量数据的收集、清洗和分析,应用机器学习解决旅游市场监管的相关问题,对旅游市场的智慧监管中的热门问题进行研究成为必然趋势。为了解决上述问题,产生了黑导游检测技术,所述黑导游检测技术具体是指根据投诉文本的内容,但是现有技术中缺乏有效的检测。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于梯度提升算法的黑导游检测方法,使用梯度提升算法把大量文本判断并归类为预先定义好的多个类别,从而有效提升旅游市场。本专利技术采用的技术方案为:一种基于梯度提升算法的黑导游检测方法,包括:A、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;B、基于 ...
【技术保护点】
1.一种基于梯度提升算法的黑导游检测方法,其特征在于,包括:/nA、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;/nB、基于步骤A的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;/nC、向步骤B得到的黑导游类别预测模型输入投诉文本,得到预测类型。/n
【技术特征摘要】
1.一种基于梯度提升算法的黑导游检测方法,其特征在于,包括:
A、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;
B、基于步骤A的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;
C、向步骤B得到的黑导游类别预测模型输入投诉文本,得到预测类型。
2.根据权利要求1所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A包括以下分步骤:
A1、旅游新闻网发起请求,获取新闻URL数据;
A2、对新闻URL数据进行爬取新闻内容;
A3、对步骤A2得到的新闻内容进行分词,获得分词语料;
A4、根据分词语料训练得到词向量模型。
3.根据权利要求2所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A1具体为:用Postman模拟HTTP请求,设置请求参数为获取所有结果,设置文档类型为application/x-www-form-urlencoded,解析返回结果,并把每天的新闻URL数据按行进行存储。
4.根据权利要求2所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A2具体为:读取新闻URL发起HTTP请求,对返回的HTML格式的内容进行解析,...
【专利技术属性】
技术研发人员:詹瑾瑜,余佳雨,江维,李响,杨瑞,刘昌澍,李博智,蔡玉舒,周巧瑜,
申请(专利权)人:电子科技大学,中电科大数据研究院有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。