System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及数据处理领域,特别涉及一种文本数据清洗方法、系统、装置及存储介质。
技术介绍
1、人工智能的发展取得了巨大突破,其中的关键之一是高质量数据的不断发展。特别是对于大型语言模型来说,更高质量、更丰富的训练数据集至关重要。在模型相对固定的前提下,提升数据的质量和数量可以有效地提升整个模型的训练效果。针对ai(artificialintelligence,人工智能)语言大模型来说,它们需要使用高质量、大规模、以及多样性的数据集进行训练。在中文大语言模型的预训练数据集中,主要来源于互联网抓取数据、网络百科全书、以及书籍等。在数据集中,尤其是书籍的使用,主要是为了训练模型的故事讲述能力和反应能力,这主要包括了小说和非小说两大类。然而,尽管国内数据资源十分丰富,但是由于数据挖掘不足,优质中文数据集仍然稀缺。主要的瓶颈在于形形色色的中文文本语料质量参差不齐,以及原始文本数据中包含大量噪声、错误、无用数据和其他类型的垃圾信息,这些都会影响文本分析的准确性。而且,人工收集文本数据集需要巨大的人力资金投入,在数据挖掘和数据治理上的力度和投入也存在不足的情况。
2、因此,如何解决数据集中的低质量文本、噪声信息等问题,以及如何通过更加有效的方式进行数据收集和挖掘,是当前亟需解决的关键问题。
技术实现思路
1、本申请的目的是提供一种文本数据清洗方法、系统、装置及存储介质,通过轮询各篇文章中的各行文本数据,一旦发现低质量文本,可以执行清洗操作,包括删除、替换和合并等操作,可以过滤掉无用数据
2、第一方面,本申请提供了一种文本数据清洗方法,包括:
3、获取文本数据,所述文本数据包括若干篇文章,每篇所述文章包括若干行文本数据;
4、轮询各所述文章中的各行文本数据;
5、确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据;
6、若存在,则对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作,所述清洗操作包括删除操作、替换操作和合并操作中的任意一种。
7、在一种实施例中,对目标行文本数据中满足预设清洗条件的文本数据执行清洗操作之后,还包括:
8、将清洗后的文本数据输入至语言训练模型中进行训练学习。
9、在一种实施例中,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
10、判断当前轮询的所述目标行文本数据是否满足删除条件;
11、若满足所述删除条件,则删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据。
12、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
13、在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行;
14、若存在空行,则判定满足所述删除条件;
15、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
16、删除所述空行。
17、在一种实施例中,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
18、判断当前轮询的所述目标行文本数据是否只包括若干个换行符;
19、若只包括若干个所述换行符,则判定满足所述删除条件;
20、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
21、删除所述目标行文本数据。
22、在一种实施例中,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
23、判断所述目标行文本数据的结尾是否包括不止一个换行符;
24、若包括不止一个所述换行符,则判定满足所述删除条件;
25、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
26、删除若干个所述换行符以使所述目标行文本数据的结尾只有一个所述换行符。
27、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
28、判断当前轮询的所述目标行文本数据中预设字符的个数是否超过第一预设个数,所述预设字符为非中文且非数字的字符;
29、若超过所述第一预设个数,则判定满足所述删除条件;
30、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
31、删除预设字符的个数超过第一预设个数的目标行文本数据。
32、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
33、判断当前轮询的所述目标行文本数据中是否存在满足空格删除条件的空格,其中所述空格删除条件为:所述空格前的字符为非英文字符且所述空格后的字符为非英文字符、或相邻两个英文字符之间存在超过一个以上的空格;
34、若存在,则判定满足所述删除条件;
35、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
36、将满足所述空格删除条件的空格删除。
37、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
38、判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
39、若包括所述敏感词汇,则判定满足所述删除条件;
40、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
41、删除包括所述敏感词汇的目标行文本数据。
42、在一种实施例中,判断当前轮询的所述目标行文本数据中是否包括敏感词汇,包括:
43、判断当前轮询的所述目标行文本数据中是否包括预设敏感词汇数据库中的任意字符串、或者通过预设敏感词汇判定模型判断当前轮询的所述目标行文本数据中是否包括敏感词汇;
44、若包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇,则判定满足所述删除条件;
45、删除所述目标行文本数据中满足所述删除条件的字符或删除整个所述目标行文本数据,包括:
46、删除包括所述预设敏感词汇数据库中的任意字符串或所述预设敏感词汇判定模型的输出结果为存在所述敏感词汇的目标行文本数据。
47、在一种实施例中,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
48、判断当前轮询的所述目标行文本数据是否为非中文文本数据;
49、若所述目标行文本数据为所述非中文文本数据,则判断所述目标行文本数据是否为连续多行非中文文本数据中的一行;
50、若所述目标行文本数据不本文档来自技高网...
【技术保护点】
1.一种文本数据清洗方法,其特征在于,包括:
2.如权利要求1所述的文本数据清洗方法,其特征在于,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作之后,还包括:
3.如权利要求1所述的文本数据清洗方法,其特征在于,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
4.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
5.如权利要求4所述的文本数据清洗方法,其特征在于,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
6.如权利要求4所述的文本数据清洗方法,其特征在于,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
7.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
8.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条
9.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
10.如权利要求9所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括敏感词汇,包括:
11.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
12.如权利要求3所述的文本数据清洗方法,其特征在于,获取文本数据之后,还包括:
13.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
14.如权利要求13所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
15.如权利要求13所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
16.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
17.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
18.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
19.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
20.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
21.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
22.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
23.如权利要求22所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否存在用于表征参考文献的文献字符之后,还包括:
24.如权利要求3所述的文本数据清洗方法,其特征在于,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
25.如权利要求24所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否存在满足替换条件的字符,包括:
26.如权利要求3-25任一项所述的文本数据清洗方法,其特征在于,还包括:
27.如权利要求26所述的文本数据清洗方法,其特征在于,确定当前轮询的所述目标行文本数据是否满足合并条件,包括:
28.如权利要求26所述的文本数据清洗方法,其特征在于,还包括:
29.如权利要求28所述的文本数据清洗方法,其特征在于,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
30.如权利要求28所述的文本数据清洗方法,其特征在于,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
31.如权利要求28所述的文本数据清洗方法,其特征在于,判断当前轮询的目标段落是否满足预设段落删除条件,包括:
32.如权利要求26所述的文本数据清洗方法,其特征在于,还包括:
33.一种文本数据清洗系统,其特征在于,包括:
3...
【技术特征摘要】
1.一种文本数据清洗方法,其特征在于,包括:
2.如权利要求1所述的文本数据清洗方法,其特征在于,对所述目标行文本数据中满足所述预设清洗条件的文本数据执行清洗操作之后,还包括:
3.如权利要求1所述的文本数据清洗方法,其特征在于,确定当前轮询的目标行文本数据中是否存在满足预设清洗条件的文本数据,包括:
4.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
5.如权利要求4所述的文本数据清洗方法,其特征在于,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
6.如权利要求4所述的文本数据清洗方法,其特征在于,在轮询所述目标行文本数据时,通过所述目标行文本数据中的字符判断所述文章是否存在空行,包括:
7.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
8.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
9.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
10.如权利要求9所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括敏感词汇,包括:
11.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
12.如权利要求3所述的文本数据清洗方法,其特征在于,获取文本数据之后,还包括:
13.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
14.如权利要求13所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
15.如权利要求13所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据中是否包括用于表征解释说明的字符,包括:
16.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足删除条件,包括:
17.如权利要求3所述的文本数据清洗方法,其特征在于,判断当前轮询的所述目标行文本数据是否满足...
【专利技术属性】
技术研发人员:陈曦,王超,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。