文本数据处理方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20272656 阅读:25 留言:0更新日期:2019-02-02 03:42
本发明专利技术公开一种文本数据处理方法、装置、计算机设备及存储介质,应用在大数据领域,尤其涉及大数据采集及处理。该方法包括:获取数据清洗请求,数据清洗请求包括频道标识和清洗时间;基于频道标识确定与频道标识相对应的目标语料库,目标语料库包括包括至少一个原始文本数据,每一原始文本数据携带一时间标识;根据频道标识和清洗时间查询数据清洗记录表,确定目标时间区间;将时间标识在目标时间区间内的原始文本数据确定为待清洗文本数据;基于频道标识查询规则数据库,获取与频道标识相对应的目标清洗规则;采用目标清洗规则对待清洗文本数据进行清洗,获取目标纯文本数据。该方法可有效提高文本数据清洗效率和清洗质量。

【技术实现步骤摘要】
文本数据处理方法、装置、计算机设备及存储介质
本专利技术涉及大数据处理
,尤其涉及一种文本数据处理方法、装置、计算机设备及存储介质。
技术介绍
在语音识别和OCR文本识别等
,需要采集特定领域大量的文本数据,以训练该特定领域专用的语言模型,从而保证训练出的语言模型在该特定领域的识别准确率。当前语言模型训练过程中,主要通过人工收集并清洗文本数据,其过程耗时长、效率低且错误率较高。并且,在中文语言模型训练过程中,需采集纯中文文本数据作为中文语言模型的文本数据,而人工收集并清洗纯中文文本数据过程中,需对该文本数据中中文以外的数据进行清洗,其过程耗时长、效率低且准确率无法保障。
技术实现思路
本专利技术实施例提供一种文本数据处理方法、装置、计算机设备及存储介质,以解决人工收集并清洗文本数据过程中存在的效率低且错误率较高的问题。一种文本数据处理方法,包括:获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。一种文本数据处理装置,包括:数据清洗请求获取模块,获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;原始文本数据获取模块,用于基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;目标时间区间获取模块,用于根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;待清洗文本数据获取模块,用于将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;目标清洗规则获取模块,用于基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;目标纯文本数据获取模块,用于采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本数据处理方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本数据处理方法的步骤。上述文本数据处理方法、装置、计算机设备及存储介质,根据数据清洗请求中的频道标识确定对应的目标语料库,从而获取携带时间标识的至少一个原始文本数据,以提高原始文本数据的获取效率。根据数据清洗请求中的频道标识和清洗时间确定目标时间区间,并依据该目标时间区间与每一原始文本数据携带的时间标签,确定待清洗文本数据,有助于避免对目标语料库中已被清洗过的原始文本数据进行重复清洗,从而提高文本数据清洗的效率。依据频道标识对应的目标清洗规则对待清洗文本数据进行清洗,可快速获取目标纯文本数据,其过程无需人工干预,可有效提高文本清洗的效率和质量。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中文本数据处理方法的一应用环境示意图;图2是本专利技术一实施例中文本数据处理方法的一流程图;图3是本专利技术一实施例中文本数据处理方法的另一流程图;图4是本专利技术一实施例中文本数据处理方法的另一流程图;图5是本专利技术一实施例中文本数据处理方法的另一流程图;图6是本专利技术一实施例中文本数据处理方法的另一流程图;图7是本专利技术一实施例中文本数据处理方法的另一流程图;图8是本专利技术一实施例中文本数据处理装置的一示意图;图9是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的文本数据处理方法,该文本数据处理方法可应用如图1所示的应用环境中。具体地,该文本数据处理方法应用在文本数据处理系统中,该文本数据处理系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现对文本数据自动清洗,可快速获取批量的目标纯文本数据,并且获取过程可节省人工清洗处理时间和人工成本,提高清洗效率和清洗质量。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图2所示,提供一种文本数据处理方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S201:获取数据清洗请求,数据清洗请求包括频道标识和清洗时间。其中,数据清洗请求是用于实现对文本数据进行自动清洗的请求。该数据清洗请求具体是用户通过客户端发送给文本数据处理系统的服务器,以使服务器基于该数据清洗请求进行相应文本清洗处理的请求。频道标识是用于识别需要清洗的文本数据的来源频道的标识。本实施例中,需要清洗的文本数据的来源频道可以理解为各网站预先设置的分类频道,包括但不限于新闻、金融、娱乐、体育和教育等分类频道。清洗时间是指本次数据清洗请求中限定的需要进行清洗的文本数据的截止时间。该清洗时间可以是客户端触发该数据清洗请求时的系统当前日期,也可以是用户通过客户端自主设定的时间。本实施例中,客户端的数据清洗配置界面上显示频道标识输入框、清洗时间输入框和确认按钮。用户可在该频道标识输入框中直接输入需要进行文本清洗处理的频道标识,也可以通过与频道标识输入框关联的下拉列表选择需要进行文本清洗处理的频道标识。在清洗时间输入框中默认显示系统当前日期,并配置自主选择按钮,可直接采用默认的系统当前日期作为清洗时间,也可通过点击自主选择按钮之后自主确定其清洗时间。在选择确定频道标识和输入时间之后,点击确认按钮,即可触发数据清洗请求,以使服务器可接收到该数据清洗请求。S202:基于频道标识确定与频道标识相对应的目标语料库,目标语料库包括包括至少一个原始文本数据,每一原始文本数据携带一时间标识。目标语料库是用于存储与频道标识相对应的原始文本数据的语料库。本实施例中,文本数据处理系统的数据库中预先存储有多个语料库,每一语料库用于存储一种来源频道对应的原始文本数据,使得该语料库与一频道标识关联。具体地,服务器根据该频道标识查询数据库,以确定与该频道标识相对应的语料库为目标语料库,确定过程简单快捷。原始文本数据是存储在语料库中未经处理的文本数据,具体可以是采用爬虫工具从相关网站的不同来源频道上爬取到的与频道标识相关联的文本数据。例如,采用本文档来自技高网...

【技术保护点】
1.一种文本数据处理方法,其特征在于,包括:获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。2.如权利要求1所述的文本数据处理方法,其特征在于,所述目标清洗规则包括特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则;所述采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据,包括:采用所述特殊标签清洗规则对所述待清洗文本数据进行标签清洗,获取第一文本数据;采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据;采用所述标点符号清洗规则对所述第二文本数据进行符号清洗,获取第三文本数据;采用所述外文清洗规则对所述第三文本数据进行外文清洗,获取目标纯文本数据。3.如权利要求2所述的文本数据处理方法,其特征在于,在所述采用特殊标签清洗规则对所述待清洗文本数据进行标签清洗,获取第一文本数据的步骤之后,且所述采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据的步骤之前,所述文本数据处理方法还包括:基于所述频道标识查询品牌数据库,获取与所述频道标识相对应的目标品牌数据;将所述第一文本数据与所述目标品牌数据进行匹配处理;若所述第一文本数据与所述目标品牌数据匹配成功,则对匹配成功的第一文本数据进行除外处理,再采用所述数字清洗规则对除外处理后的第一文本数据进行数字清洗,获取第二文本数据;若所述第一文本数据与所述目标品牌数据匹配不成功,则采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据。4.如权利要求2所述的文本数据处理方法,其特征在于,所述采用数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据,包括:从所述第一文本数据中提取数字字符串,采用正则表达式匹配算法判断所述数字字符串是否为千分位数字;若所述数字字符串为千分位数字,则去除所述千分位数字中的千位分隔符,并对去除千位分隔符后的数字进行汉字数字转换,获取第二文本数据;若所述数字字符串不为千分位数字,则采用正则表达式匹配算法判断所述数字字符串是否为小数点数字;若所述数字字符串为小数点数字,则对所述小数点符号之前的数字进行汉字数字转换,对小数点符号之后的数字进行逐字转换,并对小数点符号进行汉字替换,获取第二文本数据;若所述数字字符串不为小数点数字,则采用正则表达式匹配算法判断所述数字字符串为中文量词;若所述数字字符串为中文量词,则对所述数字字符串进行汉字数字转换,获取第二文本数据;若所述数字字符串不为中文量词,则采用正则表达式匹配算法判断所述数字字符串是否为编号数字;若所述数字字符串为编号数字,则对所述编号数字...

【专利技术属性】
技术研发人员:黄锦伦
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1