System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语料过滤及训练自然语言处理神经网络模型的方法和装置制造方法及图纸_技高网

语料过滤及训练自然语言处理神经网络模型的方法和装置制造方法及图纸

技术编号:40528157 阅读:8 留言:0更新日期:2024-03-01 13:48
本公开的实施例提供了语料过滤及训练自然语言处理神经网络模型的方法、装置、计算机程序产品和存储介质,可应用于人工智能、自然语言处理、大型模型训练等场景。所述方法利用过滤器组对语料进行过滤,以得到过滤结果,其中,过滤器组是通过将多个不同的用于对语料进行过滤的过滤器进行组合得到的,其中,所有过滤器的输入语料均具有第一格式,所有过滤器的输出语料均具有第二格式,且第一格式与第二格式相同。本公开的方法能够统一各过滤器的接口,实现利用多个过滤器来对语料进行过滤,提高了对语料进行过滤的准确性。

【技术实现步骤摘要】

本公开涉及人工智能领域,更具体地,涉及用于语料过滤的方法、装置、计算机程序产品和存储介质,以及训练自然语言处理神经网络模型的方法、装置、计算机程序产品和存储介质。


技术介绍

1、自然语言处理(nature language processing,nlp)是一种人工智能技术,其旨在让计算机理解和处理人类语言。自言语言处理通过语言学、计算机科学和人工智能技术的交叉研究,构建能够理解人类输入并做出相应响应的数字系统。

2、自言语言处理的研究旨在揭示人类如何通过语言进行信息交互的奥秘,以及更好地理解语言的内在规律。这种理解可以帮助人们更好地设计和实现自然语言通信系统。自言语言处理的发展推动了许多领域的应用,如人机交互、机器翻译、情感分析、问答系统等。这些应用可以帮助我们更高效地与计算机进行交互,更好地利用计算机资源,提高生产力和效率。

3、随着互联网的发展,自言语言处理的研究和应用得到了更多的关注。互联网提供了大量可供自言语言处理研究使用的语料库和试验平台,为自言语言处理的发展提供了强有力的支持。统计语言模型和机器学习方法的兴起进一步推动了自言语言处理的发展,使得自言语言处理在处理海量网络信息方面的应用更加广泛。

4、随着人类对自然语言处理的需求越来越高,自然语言处理神经网络模型越来越复杂,如何有效地对海量语料进行筛选,得到更准确、可靠的训练语料库,从而基于该训练语料库训练得到更准确的自然语言处理神经网络模型是目前亟待解决的问题。


技术实现思路

1、为了提高对语料进行过滤的准确性,以得到更准确、可靠的语料库,本公开提供了一种用于语料过滤的方法,包括:利用过滤器组对语料进行过滤,以得到过滤结果,其中,过滤器组是通过将多个不同的用于对语料进行过滤的过滤器进行组合得到的,其中,所有过滤器的输入语料均具有第一格式,所有过滤器的输出语料均具有第二格式,且第一格式与第二格式相同。

2、本公开的实施例还提供了一种训练自然语言处理神经网络模型的方法,包括:利用过滤器组对所述语料进行过滤,以得到过滤结果,其中,所述过滤器组是通过将多个不同的用于对语料进行过滤的过滤器进行组合得到的,其中,所有所述过滤器的输入语料均具有第一格式,所有所述过滤器的输出语料均具有第二格式,且所述第一格式与所述第二格式相同;以及基于经过滤后的语料库对所述自然语言处理神经网络模型进行训练。

3、本公开的实施例还提供了一种用于语料过滤的装置,包括:语料过滤模块,被配置为:利用过滤器组对所述语料进行过滤,以得到过滤结果,其中,所述过滤器组是通过将多个不同的用于对语料进行过滤的过滤器进行组合得到的,其中,所有所述过滤器的输入语料均具有第一格式,所有所述过滤器的输出语料均具有第二格式,且所述第一格式与所述第二格式相同。

4、本公开的实施例还提供了一种训练自然语言处理神经网络模型的装置,包括:语料过滤模块,被配置为:利用过滤器组对所述语料进行过滤,以得到过滤结果,其中,所述过滤器组是通过将多个不同的用于对语料进行过滤的过滤器进行组合得到的,其中,所有所述过滤器的输入语料均具有第一格式,所有所述过滤器的输出语料均具有第二格式,且所述第一格式与所述第二格式相同;以及模型训练模块,被配置为:基于经过滤后的语料库对所述自然语言处理神经网络模型进行训练。

5、本公开的实施例还提供了一种计算机程序产品,计算机程序产品包括计算机软件代码,计算机软件代码在被处理器运行时,提供上述方法。

6、本公开的实施例还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,指令在被处理器执行时,提供上述方法。

7、本公开的方法通过统一各过滤器的接口,提高各过滤器的兼容性和普适性,使得各过滤器可以根据需要进行任意组合为过滤器组,从而利用多个过滤器的优势和特性来共同对语料进行过滤,进而提高对语料进行过滤的准确性,得到更准确、可靠的语料库。

8、通过先利用本公开的方法对语料进行过滤,再基于过滤后的语料对自然语言处理神经网络模型进行训练能够使得训练后的自然语言处理神经网络模型对语言处理任务的准确性更高。

本文档来自技高网...

【技术保护点】

1.一种用于语料过滤的方法,包括:

2.如权利要求1所述的方法,其中,所述过滤结果包括对语料进行过滤的结果,以及过滤日志,

3.如权利要求2所述的方法,其中,利用过滤器组对所述语料进行过滤,以得到过滤结果包括:

4.如权利要求1所述的方法还包括:

5.如权利要求1所述的方法,其中,

6.如权利要求5所述的方法,其中,

7.如权利要求6所述的方法,其中,

8.如权利要求7所述的方法,其中,

9.如权利要求7所述的方法,其中,

10.如权利要求7所述的方法,其中,

11.如权利要求5所述的方法,其中,所述过滤器组是通过按照基于语言规则的过滤器,用于完善语料的过滤器,以及基于神经网络模型的过滤器的顺序依次串联组合多个不同的过滤器得到的,

12.如权利要求1所述的方法还包括:

13.一种训练自然语言处理神经网络模型的方法,包括:

14.如权利要求13所述的方法,其中,

15.如权利要求13所述的方法,其中,

16.一种用于语料过滤的装置,包括:

17.一种计算机程序产品,所述计算机程序产品包括计算机软件代码,所述计算机软件代码在被处理器运行时用于实现如权利要求1-15中任一项所述的方法。

18.一种计算机可读存储介质,其上存储有计算机可执行指令,所述指令在被处理器执行时用于实现如权利要求1-15中任一项所述的方法。

...

【技术特征摘要】

1.一种用于语料过滤的方法,包括:

2.如权利要求1所述的方法,其中,所述过滤结果包括对语料进行过滤的结果,以及过滤日志,

3.如权利要求2所述的方法,其中,利用过滤器组对所述语料进行过滤,以得到过滤结果包括:

4.如权利要求1所述的方法还包括:

5.如权利要求1所述的方法,其中,

6.如权利要求5所述的方法,其中,

7.如权利要求6所述的方法,其中,

8.如权利要求7所述的方法,其中,

9.如权利要求7所述的方法,其中,

10.如权利要求7所述的方法,其中,

11.如权利要求5所述的方法,其中,所述过滤器组是通过按照基于语言规则的过滤器...

【专利技术属性】
技术研发人员:张志锐刘秋志肖艳玲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1