用于大数据清洗的异常检测和消除的方法技术

技术编号:14342205 阅读:89 留言:0更新日期:2017-01-04 14:03
本发明专利技术公开了一种用于大数据清洗的异常检测和消除的方法,首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上。结合其余方法兼具语音识别回应、文本抓取优化、多形态数据跨库比对互通这样的功能,是一款集成多格式辨别、高速自动化处理、多样数据适配功能的智能挖掘方式。

【技术实现步骤摘要】

本专利技术涉及一种数据挖掘
,尤其是涉及一种用于大数据清洗的异常检测和消除的方法
技术介绍
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对数字化信息进行组织和整理。数据挖掘,又称为数据库中知识发现(KnowledgeDiscoveryfromDatabase,简称KDD),是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。在数据挖掘过程中,根据数据挖掘目的或实际业务需求,需要使用不同的数据挖掘算法。在数据挖掘平台设计初期,为提高数据挖掘平台的处理能力,使数据挖掘平台满足各种数据挖掘目的,常常需要在数据挖掘平台中引入多个固定的数据挖掘算法。数据挖掘是一个减少数据错误和不一致性的过程,主要任务是检测并删除或改正将转入数据库的脏数据。另外,对这些脏数据进行分析归类,并反馈给业务系统,也能帮助业务系统更好的定位代码的缺陷,改进业务流程,从而提高数据的质量。
技术实现思路
本专利技术所要解决的技术问题在于提供一种用于大数据清洗的异常检测和消除的方法,兼具语音识别回应、文本抓取优化、多形态数据跨库比对互通这样的功能,是一款集成多格式辨别、高速自动化处理、多样数据适配功能的智能挖掘方式。为解决上述技术问题,本专利技术的技术解决方案是:一种用于大数据清洗的异常检测和消除的方法,具体如下:首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上,另外所述前台处理终端内包括有智能语音识别模块、ETL模块、TTS语音合成模块、模拟机器人控制模块、邮箱域名逻辑判断及检测模块、会员信息和机器人模拟发送系统,所述会员信息包括会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述后台服务器上具有包含地理信息的数据库、邮箱域名数据库、邮编数据库、所有会员的会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述地理信息包括有地理属性的词库、核心地理信息、以及过去出现过的反映错误地理信息的词条,另外地理信息还包括过去出现过的反映错误地理信息的词条所对应的正确的地址、在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系,过去出现过的错误的邮件地址;所述邮箱域名数据库中包括有过去出现过的错误的邮件地址和与之对应的正确的邮件地址;当会员通过智能终端对前台处理终端发送信息来时,所述前台处理终端自动运行ETL模块来提取有效信息,若提取出的有效信息中包括有地址信息,就启动模拟机器人控制模块进行地址标准化处理和地址清洗,所述地址标准化处理就是把地址信息用地址信息中的地址所在省、市、区或者县、街道以及门牌号来表示,所述地址清洗就是把标准化处理的地址信息发送到所述后台服务器中,若标准化处理的地址信息中带有同义数据,后台服务器就通过在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系中判定出同义数据,若标准化处理的地址信息和包含地理信息的数据库中的过去出现过的反映错误地理信息的词条存在一致的,就把标准化处理的地址信息纠正为与之一致的过去出现过的反映错误地理信息的词条所对应的正确的地址,另外还结合邮编数据库把标准化处理的地址信息对应的邮编查询出来,并把标准化处理的地址信息及其对应的邮编返回前台处理终端;若提取出的有效信息中包括有邮件地址,就用邮箱域名逻辑判断及检测模块进行对邮件地址的格式进行检测,如果邮件地址存在格式错误,就改正成正确格式,然后启动机器人模拟发送系统把邮件地址发送到后台服务器中,邮件地址若同邮箱域名数据库中的过去出现过的错误的邮件地址有相一致的,就替换成和与之该过去出现过的错误的邮件地址对应的正确的邮件地址,然后把正确的邮件地址返回前台处理终端;另外在有效信息中包括有会员ID和会员手机号码时,在所述把准化处理的地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把准化处理的地址信息和所有会员的会员通讯地址进行对比,如果没有相匹配的会员通讯地址,就对前台处理终端发出请求来启动智能语音交互核对功能来进行通讯地址核对;另外在有效信息中包括有会员ID和会员手机号码时,在所述把邮箱地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把邮箱地址信息和所有会员的会员的邮箱域名进行对比,如果没有相匹配的会员的邮箱域名,就对前台处理终端发出请求来启动智能语音交互核对功能来进行邮箱核对。所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的通讯地址和邮编,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,在正常拨通号码的条件下,通过所述前台处理终端录入交互信息并经过TTS语音合成模块转化成语音信息播放出来,智能语音识别模块并把该语音信息和录入的交互信息经由电信网络服务器发送到会员手机号码对应的手机中分别进行播放和显示,在会员通过手机进行回复而传递回前台处理终端的语音信息首先同该会员的声音特征样本进行对比,如果是该会员的声音特征样本,就把接收到的语音信息进行播放并经由智能语音识别模块进行转化成文本信息来显示,这样交互直至获取到会员正确的通讯地址和邮编,然后发送到后台服务器中存储,如果不是该会员的声音特征样本,就结束沟通。所述启动智能语音交互核对功能来进行通讯地址核对就是通过智能语音交互与消费者进行确认,得到正确的邮箱地址信息,具体的就是通过启动所述前台处理终端内的智能语音识别模块和TTS语音合成模块,让智能语音识别模块就操纵手机卡模块经由电信网络服务器来对会员手机号码对应的手机进行测拨,在该手机经由电信网络服务器来对前台处理终端返回正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音时,智能语音识别模块就把这些正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的信号音转化成各自对应的提示正常拨通号码、关机、停机、空号、来电提醒、已设置呼入限制、暂时无法接通或受限的文字信息,并把这些文字信息通过TTS语音合成模块合成为语音播放出来,还能把这样的文字信息和此时的本地时间发送到后台服务器中存储,在正常拨本文档来自技高网...

【技术保护点】
一种用于大数据清洗的异常检测和消除的方法,其特征在于用于大数据清洗的异常检测和消除的方法,具体如下:首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上,另外所述前台处理终端内包括有智能语音识别模块、ETL模块、TTS语音合成模块、模拟机器人控制模块、邮箱域名逻辑判断及检测模块、会员信息和机器人模拟发送系统,所述会员信息包括会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述后台服务器上具有包含地理信息的数据库、邮箱域名数据库、邮编数据库、所有会员的会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述地理信息包括有地理属性的词库、核心地理信息、以及过去出现过的反映错误地理信息的词条,另外地理信息还包括过去出现过的反映错误地理信息的词条所对应的正确的地址、在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系,过去出现过的错误的邮件地址;所述邮箱域名数据库中包括有过去出现过的错误的邮件地址和与之对应的正确的邮件地址;当会员通过智能终端对前台处理终端发送信息来时,所述前台处理终端自动运行ETL模块来提取有效信息,若提取出的有效信息中包括有地址信息,就启动模拟机器人控制模块进行地址标准化处理和地址清洗,所述地址标准化处理就是把地址信息用地址信息中的地址所在省、市、区或者县、街道以及门牌号来表示,所述地址清洗就是把标准化处理的地址信息发送到所述后台服务器中,若标准化处理的地址信息中带有同义数据,后台服务器就通过在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系中判定出同义数据,若标准化处理的地址信息和包含地理信息的数据库中的过去出现过的反映错误地理信息的词条存在一致的,就把标准化处理的地址信息纠正为与之一致的过去出现过的反映错误地理信息的词条所对应的正确的地址,另外还结合邮编数据库把标准化处理的地址信息对应的邮编查询出来,并把标准化处理的地址信息及其对应的邮编返回前台处理终端;若提取出的有效信息中包括有邮件地址,就用邮箱域名逻辑判断及检测模块进行对邮件地址的格式进行检测,如果邮件地址存在格式错误,就改正成正确格式,然后启动机器人模拟发送系统把邮件地址发送到后台服务器中,邮件地址若同邮箱域名数据库中的过去出现过的错误的邮件地址有相一致的,就替换成和与之该过去出现过的错误的邮件地址对应的正确的邮件地址,然后把正确的邮件地址返回前台处理终端;另外在有效信息中包括有会员ID和会员手机号码时,在所述把准化处理的地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把准化处理的地址信息和所有会员的会员通讯地址进行对比,如果没有相匹配的会员通讯地址,就对前台处理终端发出请求来启动智能语音交互核对功能来进行通讯地址核对;另外在有效信息中包括有会员ID和会员手机号码时,在所述把邮箱地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把邮箱地址信息和所有会员的会员的邮箱域名进行对比,如果没有相匹配的会员的邮箱域名,就对前台处理终端发出请求来启动智能语音交互核对功能来进行邮箱核对。...

【技术特征摘要】
1.一种用于大数据清洗的异常检测和消除的方法,其特征在于用于大数据清洗的异常检测和消除的方法,具体如下:首先构建用于大数据分析的数据挖掘平台,其包括配置给会员的连接在电信网络上的手机、智能终端和电信网络服务器,其中手机、智能终端和电信网络服务器之间通过电信网络建立通信连接,而互联网通过接入网关或升级的接入侧设备与所述电信网络连接,互联网内包含有邮件服务器,前台处理终端和后台服务器连接在所述电信网络或者互联网上,另外所述前台处理终端内包括有智能语音识别模块、ETL模块、TTS语音合成模块、模拟机器人控制模块、邮箱域名逻辑判断及检测模块、会员信息和机器人模拟发送系统,所述会员信息包括会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述后台服务器上具有包含地理信息的数据库、邮箱域名数据库、邮编数据库、所有会员的会员ID、会员手机号码、会员的声音特征样本、会员的邮箱域名和会员通讯地址,所述地理信息包括有地理属性的词库、核心地理信息、以及过去出现过的反映错误地理信息的词条,另外地理信息还包括过去出现过的反映错误地理信息的词条所对应的正确的地址、在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系,过去出现过的错误的邮件地址;所述邮箱域名数据库中包括有过去出现过的错误的邮件地址和与之对应的正确的邮件地址;当会员通过智能终端对前台处理终端发送信息来时,所述前台处理终端自动运行ETL模块来提取有效信息,若提取出的有效信息中包括有地址信息,就启动模拟机器人控制模块进行地址标准化处理和地址清洗,所述地址标准化处理就是把地址信息用地址信息中的地址所在省、市、区或者县、街道以及门牌号来表示,所述地址清洗就是把标准化处理的地址信息发送到所述后台服务器中,若标准化处理的地址信息中带有同义数据,后台服务器就通过在表达同一地址的若干数据所构成的同义数据之间建立起的映射关系中判定出同义数据,若标准化处理的地址信息和包含地理信息的数据库中的过去出现过的反映错误地理信息的词条存在一致的,就把标准化处理的地址信息纠正为与之一致的过去出现过的反映错误地理信息的词条所对应的正确的地址,另外还结合邮编数据库把标准化处理的地址信息对应的邮编查询出来,并把标准化处理的地址信息及其对应的邮编返回前台处理终端;若提取出的有效信息中包括有邮件地址,就用邮箱域名逻辑判断及检测模块进行对邮件地址的格式进行检测,如果邮件地址存在格式错误,就改正成正确格式,然后启动机器人模拟发送系统把邮件地址发送到后台服务器中,邮件地址若同邮箱域名数据库中的过去出现过的错误的邮件地址有相一致的,就替换成和与之该过去出现过的错误的邮件地址对应的正确的邮件地址,然后把正确的邮件地址返回前台处理终端;另外在有效信息中包括有会员ID和会员手机号码时,在所述把准化处理的地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把准化处理的地址信息和所有会员的会员通讯地址进行对比,如果没有相匹配的会员通讯地址,就对前台处理终端发出请求来启动智能语音交互核对功能来进行通讯地址核对;另外在有效信息中包括有会员ID和会员手机号码时,在所述把邮箱地址信息发送到所述后台服务器中时,同步还能把所述会员ID和会员手机号码发送到所述后台服务器中,并且还能够进行把邮箱地址信息和所有会员的会员的邮箱域名进行对比,如果没有相匹配的会员的邮箱域名,就对前台处理终端发出请求来启动智能语音交互核对功能来进行邮箱核对。2.根据权利要求1所述的用于大数据清洗的异常检测和消除的方法,其特征在于所述启动智能语音交互核对功能来...

【专利技术属性】
技术研发人员:刘春明
申请(专利权)人:上海云信留客信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1