文本处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:40803385 阅读:14 留言:0更新日期:2024-03-28 19:28
本申请公开了一种文本处理方法、装置、电子设备及存储介质,属于数据处理技术领域。该方法包括:基于第一文本,获取至少一个第一文本片段,每个第一文本片段中包含至少两个字符;基于第二文本片段中的第一字符在第二文本片段中的位置,与第二文本片段中的中心字符在第二文本片段中的位置,确定第一字符对应的第一噪声概率,第一噪声概率为第一字符为噪声字符的概率,第二文本片段为至少一个第一文本片段中的一个,第一字符为第一文本片段中的字符;基于每个第一文本片段中的每个第一字符对应的第一噪声概率,对第一文本处理,得到第二文本。

【技术实现步骤摘要】

本申请属于数据处理,具体涉及一种文本处理方法、装置、电子设备及存储介质


技术介绍

1、随着电子设备的不断发展,电子设备中的功能也越来越多。例如,电子设备可以从网络页面中获取文本资源,并从网络页面中获取的文本资源中确定出用户需要的文本。通常,电子设备通过爬虫技术获取网络页面中的所有文本资源中可能包含噪声数据,例如,网络页面中可能夹杂着很多不规则的字符、广告、导航条、申明模版等对模型训练无意义的内容。

2、相关技术中,电子设备在得到文本资源之后,可以通过人工标注的方式识别数据中不合理的内容,即噪声数据,尝试总结一些规律,然后使用正则匹配的方式将符合这些规律的数据过滤掉。

3、然而,在文本资源的数据量达到数亿级别,通过人工标注的方式识别文本资源中的噪声数据的过程繁琐且耗时,如此,电子设备识别噪声数据的效率较低。


技术实现思路

1、本申请实施例的目的是提供一种文本处理方法、装置、电子设备及存储介质,能够提高训练大模型的效率和准确性。

2、第一方面,本申请实施例提供了一种文本处理方本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于每个所述第一文本片段中的每个字符对应的噪声概率,对所述第一文本处理,得到第二文本之后,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于第二文本片段中的第一字符在所述第二文本片段中的位置,与所述第二文本片段中的中心字符在所述第二文本片段中的位置,确定所述第一字符对应的第一噪声概率,包括:

4.根据权利要求1或3所述的方法,其特征在于,所述基于每个所述文本片段中的每个第一字符对应的第一噪声概率,对所述第一文本处理,包括

5....

【技术特征摘要】

1.一种文本处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于每个所述第一文本片段中的每个字符对应的噪声概率,对所述第一文本处理,得到第二文本之后,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于第二文本片段中的第一字符在所述第二文本片段中的位置,与所述第二文本片段中的中心字符在所述第二文本片段中的位置,确定所述第一字符对应的第一噪声概率,包括:

4.根据权利要求1或3所述的方法,其特征在于,所述基于每个所述文本片段中的每个第一字符对应的第一噪声概率,对所述第一文本处理,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于第一文本,获取至少一个第一文本片段,包括:

6.一种文本处理装置,其特征在于,所述方法包括:获取模块、确定模块和处理模块;

7.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于所述基于每个所述第一文本片段中的每个字符对应的噪声概率,对所述第一文本处理,得到第二文本之后,基于所述第二文本中的每个字符的字符内容,对所述第二文本中的至少一个字符进行聚合处理,得到至少一个字符集合,每个所述字符集合中包含至少一个字符;将所述至少一个字符集合中第一字符集合中的字符,作为噪声字符,所述...

【专利技术属性】
技术研发人员:田光鑫
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1