文本清洗方法、装置、设备与计算机可读存储介质制造方法及图纸

技术编号：36385443 阅读：16 留言：0更新日期：2023-01-18 09:48

本发明专利技术公开了一种文本清洗方法、装置、设备与计算机可读存储介质，该方法包括：当检测到针对第一数据源的清洗指令时，获取清洗指令指示的第一数据源中的源文本数据；从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，第一数据源与第二数据源不同；基于目标清洗模型对源文本数据进行清洗处理，以得到第一数据源的目标文本数据。采用本申请，避免了因为仅通过文本数据的同源清洗模型对文本数据进行清洗而导致的清洗效果差的问题，能够将噪音数据较好的清除，提高文本清洗效果。提高文本清洗效果。提高文本清洗效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本清洗方法、装置、设备与计算机可读存储介质

[0001]本专利技术涉及数据处理
，尤其涉及文本清洗方法、装置、设备与计算机可读存储介质。

技术介绍

[0002]随着互联网的不断发展，网络上的信息量日益剧增，这便带来了庞杂、多样的文本数据；而互联网的开放性也导致在网络中存在很多不良信息，因此在互联网上，对文本数据进行监控和过滤已经成为普遍需求。
[0003]目前，一些现有技术中提及了使用N
‑
gram语言模型来进行数据清洗，但目前的做法通常是利用N
‑
gram语言模型进行分词，然后根据预设规则，对词语序列进行筛选或者清洗。然而该方法，对于从网络上不同源爬取的数据通过简单的规则过滤并不能把其中的噪音数据过滤干净，因此，存在过滤效果差的问题。

技术实现思路

[0004]本专利技术的主要目的在于提供一种文本清洗方法、装置、设备与计算机可读存储介质，旨在解决噪音数据的识别和清洗的准确性低的技术问题。所述技术方案如下：
[0005]第一方面，本申请实施例提供了一种文本清洗方法，包括：
[0006]当检测到针对第一数据源的清洗指令时，获取所述清洗指令指示的所述第一数据源中的源文本数据；
[0007]从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同；
[0008]基于所述目标清洗模型对所述源文本数据进行清洗处理，以得...

【技术保护点】

【技术特征摘要】
1.一种文本清洗方法，其特征在于，包括：当检测到针对第一数据源的清洗指令时，获取所述清洗指令指示的所述第一数据源中的源文本数据；从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同；基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据。2.如权利要求1所述的方法，其特征在于，所述目标清洗模型为一个清洗模型；所述基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据，包括：通过所述目标清洗模型计算所述源文本数据中各文本数据的出现概率；在所述源文本数据中获取出现概率低于所述目标清洗模型对应的预设阈值的第一文本数据；在所述源文本数据中将所述第一文本数据剔除，将剔除后所述源文本数据中剩余的第二文本数据确定为所述第一数据源的目标文本数据。3.如权利要求1所述的方法，其特征在于，所述目标清洗模型为多个清洗模型，所述多个清洗模型按照设定清洗顺序进行排列；所述基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据，包括：在目标清洗模型中获取当前清洗模型，通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率，所述当前清洗模型为所述目标清洗模型中当前用于对所述源文本数据进行清洗处理的清洗模型；在所述源文本数据中获取出现概率低于所述当前清洗模型对应的预设阈值的第三文本数据；在所述源文本数据中将所述第三文本数据剔除，获取剔除后所述源文本数据中剩余的第四文本数据；若所述目标清洗模型中存在所述当前清洗模型的下一个清洗模型，则将所述下一个清洗模型确定为当前清洗模型，将所述第四文本数据确定为源文本数据，转入执行通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率的步骤；若所述目标清洗模型中不存在所述当前清洗模型的下一个清洗模型，则将所述第四文本数据确定为所述第一数据源的目标文本数据。4.如权利要求1所述的方法，其特征在于，从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，包括：确认与所述源文本数据所属的数据源不同的第三数据源，并从所述...

【专利技术属性】
技术研发人员：李泽康，吕志强，
申请(专利权)人：名之梦上海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人