【技术实现步骤摘要】
文本数据处理方法、装置、计算机设备及存储介质
本专利技术涉及大数据处理
,尤其涉及一种文本数据处理方法、装置、计算机设备及存储介质。
技术介绍
在语音识别和OCR文本识别等
,需要采集特定领域大量的文本数据,以训练该特定领域专用的语言模型,从而保证训练出的语言模型在该特定领域的识别准确率。当前语言模型训练过程中,主要通过人工收集并清洗文本数据,其过程耗时长、效率低且错误率较高。并且,在中文语言模型训练过程中,需采集纯中文文本数据作为中文语言模型的文本数据,而人工收集并清洗纯中文文本数据过程中,需对该文本数据中中文以外的数据进行清洗,其过程耗时长、效率低且准确率无法保障。
技术实现思路
本专利技术实施例提供一种文本数据处理方法、装置、计算机设备及存储介质,以解决人工收集并清洗文本数据过程中存在的效率低且错误率较高的问题。一种文本数据处理方法,包括:获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。一种文本数据处理装置,包括:数据清洗请求获取模块,获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;原始文本数据获取模块,用于基于所述 ...
【技术保护点】
1.一种文本数据处理方法,其特征在于,包括:获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。
【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:获取数据清洗请求,所述数据清洗请求包括频道标识和清洗时间;基于所述频道标识确定与所述频道标识相对应的目标语料库,所述目标语料库包括至少一个原始文本数据,每一所述原始文本数据携带一时间标识;根据所述频道标识和所述清洗时间查询数据清洗记录表,确定目标时间区间;将所述时间标识在所述目标时间区间内的原始文本数据确定为待清洗文本数据;基于所述频道标识查询规则数据库,获取与所述频道标识相对应的目标清洗规则;采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据。2.如权利要求1所述的文本数据处理方法,其特征在于,所述目标清洗规则包括特殊标签清洗规则、数字清洗规则、标点符号清洗规则和外文清洗规则;所述采用所述目标清洗规则对所述待清洗文本数据进行清洗,获取目标纯文本数据,包括:采用所述特殊标签清洗规则对所述待清洗文本数据进行标签清洗,获取第一文本数据;采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据;采用所述标点符号清洗规则对所述第二文本数据进行符号清洗,获取第三文本数据;采用所述外文清洗规则对所述第三文本数据进行外文清洗,获取目标纯文本数据。3.如权利要求2所述的文本数据处理方法,其特征在于,在所述采用特殊标签清洗规则对所述待清洗文本数据进行标签清洗,获取第一文本数据的步骤之后,且所述采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据的步骤之前,所述文本数据处理方法还包括:基于所述频道标识查询品牌数据库,获取与所述频道标识相对应的目标品牌数据;将所述第一文本数据与所述目标品牌数据进行匹配处理;若所述第一文本数据与所述目标品牌数据匹配成功,则对匹配成功的第一文本数据进行除外处理,再采用所述数字清洗规则对除外处理后的第一文本数据进行数字清洗,获取第二文本数据;若所述第一文本数据与所述目标品牌数据匹配不成功,则采用所述数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据。4.如权利要求2所述的文本数据处理方法,其特征在于,所述采用数字清洗规则对所述第一文本数据进行数字清洗,获取第二文本数据,包括:从所述第一文本数据中提取数字字符串,采用正则表达式匹配算法判断所述数字字符串是否为千分位数字;若所述数字字符串为千分位数字,则去除所述千分位数字中的千位分隔符,并对去除千位分隔符后的数字进行汉字数字转换,获取第二文本数据;若所述数字字符串不为千分位数字,则采用正则表达式匹配算法判断所述数字字符串是否为小数点数字;若所述数字字符串为小数点数字,则对所述小数点符号之前的数字进行汉字数字转换,对小数点符号之后的数字进行逐字转换,并对小数点符号进行汉字替换,获取第二文本数据;若所述数字字符串不为小数点数字,则采用正则表达式匹配算法判断所述数字字符串为中文量词;若所述数字字符串为中文量词,则对所述数字字符串进行汉字数字转换,获取第二文本数据;若所述数字字符串不为中文量词,则采用正则表达式匹配算法判断所述数字字符串是否为编号数字;若所述数字字符串为编号数字,则对所述编号数字...
【专利技术属性】
技术研发人员:黄锦伦,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。