文本清洗方法、装置、设备与计算机可读存储介质制造方法及图纸

技术编号:36385443 阅读:16 留言:0更新日期:2023-01-18 09:48
本发明专利技术公开了一种文本清洗方法、装置、设备与计算机可读存储介质,该方法包括:当检测到针对第一数据源的清洗指令时,获取清洗指令指示的第一数据源中的源文本数据;从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,其中,清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成,第一数据源与第二数据源不同;基于目标清洗模型对源文本数据进行清洗处理,以得到第一数据源的目标文本数据。采用本申请,避免了因为仅通过文本数据的同源清洗模型对文本数据进行清洗而导致的清洗效果差的问题,能够将噪音数据较好的清除,提高文本清洗效果。提高文本清洗效果。提高文本清洗效果。

【技术实现步骤摘要】
文本清洗方法、装置、设备与计算机可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及文本清洗方法、装置、设备与计算机可读存储介质。

技术介绍

[0002]随着互联网的不断发展,网络上的信息量日益剧增,这便带来了庞杂、多样的文本数据;而互联网的开放性也导致在网络中存在很多不良信息,因此在互联网上,对文本数据进行监控和过滤已经成为普遍需求。
[0003]目前,一些现有技术中提及了使用N

gram语言模型来进行数据清洗,但目前的做法通常是利用N

gram语言模型进行分词,然后根据预设规则,对词语序列进行筛选或者清洗。然而该方法,对于从网络上不同源爬取的数据通过简单的规则过滤并不能把其中的噪音数据过滤干净,因此,存在过滤效果差的问题。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本清洗方法、装置、设备与计算机可读存储介质,旨在解决噪音数据的识别和清洗的准确性低的技术问题。所述技术方案如下:
[0005]第一方面,本申请实施例提供了一种文本清洗方法,包括:
[0006]当检测到针对第一数据源的清洗指令时,获取所述清洗指令指示的所述第一数据源中的源文本数据;
[0007]从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,其中,所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成,所述第一数据源与所述第二数据源不同;
[0008]基于所述目标清洗模型对所述源文本数据进行清洗处理,以得到所述第一数据源的目标文本数据。
[0009]第二方面,本申请实施例提供一种文本清洗装置,包括:
[0010]获取模块,用于当检测到针对第一数据源的清洗指令时,获取所述清洗指令指示的所述第一数据源中的源文本数据;
[0011]模型匹配模块,用于从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,其中,所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成,所述第一数据源与所述第二数据源不同;
[0012]清洗模块,用于基于所述目标清洗模型对所述源文本数据进行清洗处理,以得到所述第一数据源的目标文本数据。
[0013]第三方面,本申请实施例提供一种文本清洗设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本清洗程序,所述文本清洗程序被所述处理器执行时实现如上述方法的步骤。
[0014]第四方面,本申请实施例提供一种计算机存储介质,所述计算机可读存储介质上
存储有文本清洗程序,所述文本清洗程序被处理器执行时实现如上述方法的步骤。
[0015]在本专利技术实施例中,通过当检测到针对第一数据源的清洗指令时,确定清洗指令指示的第一数据源中的源文本数据,再从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,其中,清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成,并且第一数据源与所述第二数据源不同,基于目标清洗模型对源文本数据进行清洗处理,以得到第一数据源的目标文本数据。通过多源数据训练得到多个清洗模型,在对某一数据源的源文本数据进行清洗时,通过不同源的第二数据源对应的清洗模型对源文本数据进行清洗,解决了仅通过文本数据的同源清洗模型对文本数据进行清洗效果差的问题,能够通过不同源的目标清洗模型将噪音数据较好的清除,提高文本清洗效果。
附图说明
[0016]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本申请实施例提供的一种文本清洗方法的举例示意图;
[0018]图2是本申请实施例提供的一种文本清洗方法的流程示意图;
[0019]图3是本申请实施例提供的一种文本清洗方法中通过目标清洗模型清洗源文本数据的细化流程示意图;
[0020]图4是本申请实施例提供的一种文本清洗方法调整模型参数的细化流程示意图
[0021]图5是本申请实施例提供的一种文本清洗方法中确认目标清洗模型的细化流程示意图;
[0022]图6是本申请实施例提供的一种文本获取装置的结构示意图;
[0023]图7是本申请实施例提供的一种文本清洗设备的结构示意图。
具体实施方式
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]文本清洗装置可以为手机、电脑、平板电脑、智能手表或车载设备等终端设备,也可以为终端设备中用于实现文本清洗方法的模块,文本清洗装置可以获取至少两个数据源的文本数据,基于文本数据,训练得到每个文本数据对应的清洗模型,通过清洗模型对所述文本数据进行清洗,得到目标文本数据。文本清洗装置清洗后输出的目标文本数据可以在终端设备上显示输出文本。
[0026]请一并参见图1,为本申请实施例提供了一种文本清洗方法的举例示意图,图中示出的为对n个数据源分别进行清洗的过程,当从用户处接收到清洗指令后,文本清洗装置获取对应的数据源的源文本数据,依次将每个数据源对应的文本数据指定为源文本数据,通过不同数据源的训练得到的清洗模型对源文本数据进行清洗,也即n各数据源之间进行交
叉清洗,得到每个数据源对应的目标文本数据,进而获得所有数据源对应的目标文本数据。
[0027]下面结合具体的实施例对本申请提供的文本清洗方法进行详细说明。
[0028]请参见图2,为本申请实施例提供了一种文本清洗方法的流程示意图。如图2所示,本申请实施例的所述方法可以包括以下步骤S10

S30。
[0029]S10,当检测到针对第一数据源的清洗指令时,获取所述清洗指令指示的所述第一数据源中的源文本数据;
[0030]S20,从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,其中,所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成,所述第一数据源与所述第二数据源不同;
[0031]S30,基于所述目标清洗模型对所述源文本数据进行清洗处理,以得到所述第一数据源的目标文本数据。
[0032]本实施例中首先从多种数据源采集文本数据,并根据采集到的文本数据进行清洗模型训练,得到每种数据源对应的清洗模型,再通过训练得到的多个清洗模型对文本数据进行清洗,具体清洗方法为当检测到针对第一数据源的清洗指令时,确定清洗指令指示的第一数据源中的源文本数据,再从预训练的清洗模型库中选取与第一数据源不同源的第二数据源对应的目标清洗模型,通过目标清洗模型对源文本数据进行清洗处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本清洗方法,其特征在于,包括:当检测到针对第一数据源的清洗指令时,获取所述清洗指令指示的所述第一数据源中的源文本数据;从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,其中,所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成,所述第一数据源与所述第二数据源不同;基于所述目标清洗模型对所述源文本数据进行清洗处理,以得到所述第一数据源的目标文本数据。2.如权利要求1所述的方法,其特征在于,所述目标清洗模型为一个清洗模型;所述基于所述目标清洗模型对所述源文本数据进行清洗处理,以得到所述第一数据源的目标文本数据,包括:通过所述目标清洗模型计算所述源文本数据中各文本数据的出现概率;在所述源文本数据中获取出现概率低于所述目标清洗模型对应的预设阈值的第一文本数据;在所述源文本数据中将所述第一文本数据剔除,将剔除后所述源文本数据中剩余的第二文本数据确定为所述第一数据源的目标文本数据。3.如权利要求1所述的方法,其特征在于,所述目标清洗模型为多个清洗模型,所述多个清洗模型按照设定清洗顺序进行排列;所述基于所述目标清洗模型对所述源文本数据进行清洗处理,以得到所述第一数据源的目标文本数据,包括:在目标清洗模型中获取当前清洗模型,通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率,所述当前清洗模型为所述目标清洗模型中当前用于对所述源文本数据进行清洗处理的清洗模型;在所述源文本数据中获取出现概率低于所述当前清洗模型对应的预设阈值的第三文本数据;在所述源文本数据中将所述第三文本数据剔除,获取剔除后所述源文本数据中剩余的第四文本数据;若所述目标清洗模型中存在所述当前清洗模型的下一个清洗模型,则将所述下一个清洗模型确定为当前清洗模型,将所述第四文本数据确定为源文本数据,转入执行通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率的步骤;若所述目标清洗模型中不存在所述当前清洗模型的下一个清洗模型,则将所述第四文本数据确定为所述第一数据源的目标文本数据。4.如权利要求1所述的方法,其特征在于,从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型,包括:确认与所述源文本数据所属的数据源不同的第三数据源,并从所述...

【专利技术属性】
技术研发人员:李泽康吕志强
申请(专利权)人:名之梦上海科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1