System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 训练数据的构建方法、服务器及计算机可读存储介质技术_技高网

训练数据的构建方法、服务器及计算机可读存储介质技术

技术编号:40678887 阅读:4 留言:0更新日期:2024-03-18 19:17
本申请公开一种训练数据的构建方法,方法包括:服务器可获取满足第一预设条件的第一语句样本,对第一语句样本进行分词处理,以得到第一语句样本中词语及词语对应的词性,基于第一语句样本的词语和词性,根据第一语句样本确定第二语句样本,根据第一语句样本和第二语句样本,构建用于训练模型的训练数据。如此,在本申请中,服务器可根据满足第一预设条件的第一语句样本,确定满足第二预设条件的第二语句样本,使得语句不通顺的第二语句样本可借助语句通顺的第一语句样本生成,在一定程度上减少第二语句样本的获取过程所包括的人工参与环节,第二语句样本的获取难度得以降低,第二语句样本的获取效率在一定程度上得以提升。

【技术实现步骤摘要】

本申请涉及数据处理,特别涉及一种训练数据的构建方法、服务器及计算机可读存储介质


技术介绍

1、为识别语句是否通顺,可训练相应的通顺度检测模型以实现。然而,训练通顺度识别模型所需的不通顺语句样本通常需人工设计,导致不通顺语句样本的获取难度较高,因而通顺度识别模型的获取难度较大。


技术实现思路

1、本申请提供了一种训练数据的构建方法、服务器及计算机可读存储介质。

2、本申请实施方式提供一种训练数据的构建方法,包括:

3、获取满足第一预设条件的第一语句样本;

4、对所述第一语句样本进行分词处理,得到第一语句样本中词语及所述词语的词性;

5、基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,其中,所述第二语句样本满足第二预设条件,所述第一预设条件和所述第二预设条件相悖;

6、根据所述第一语句样本和所述第二语句样本,构建训练数据。

7、本申请实施方式提供的训练数据的构建方法中,服务器可获取满足第一预设条件的第一语句样本,对第一语句样本进行分词处理,以得到第一语句样本中词语及词语对应的词性,基于第一语句样本的词语和词性,根据第一语句样本确定第二语句样本,根据第一语句样本和第二语句样本,构建用于训练模型的训练数据。

8、如此,在本申请实施方式中,服务器可根据满足第一预设条件的第一语句样本,确定满足第二预设条件的第二语句样本,使得语句不通顺的第二语句样本可借助语句通顺的第一语句样本生成,在一定程度上减少第二语句样本的获取过程所包括的人工参与环节,第二语句样本的获取难度得以降低,进而可降低模型的训练数据的构建难度,模型的获取难度在一定程度降低。

9、在本申请某些实施方式中,所述第一语句样本包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

10、选取多个所述第一语句样本中的第一参考样本和第二参考样本;

11、对所述第一参考样本中的第一词语和所述第二参考样本的第二词语进行交换处理,其中,所述第一词语的词性和所述第二词语的词性相同;

12、根据所述交换处理的结果,确定所述第二语句样本。

13、如此,本申请实施方式的服务器可通过交换第一参考样本和第二参考样本中词性相同的词语,得到因词语与词性不搭配而导致不通顺的第二语句样本,在一定程度上使得第二语句样本的可靠获取得以保障。

14、在本申请某些实施方式中,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

15、对所述第一语句样本中的所述词语进行删除处理,得到所述第二语句样本。

16、如此,本申请实施方式的服务器可通过删除第一语句样本中的词语,得到因缺词而导致不通顺的第二语句样本,在一定程度上使得第二语句样本的可靠获取得以保障。

17、在本申请某些实施方式中,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

18、对所述第一语句样本中的两个所述词语的位置进行互换处理,得到所述第二语句样本。

19、如此,本申请实施方式可通过交换第一语句样本中的两个词语的位置,得到因词语顺序颠倒而导致不通顺的第二语句样本,在一定程度上使得第二语句样本的可靠获取得以保障。

20、在本申请某些实施方式中,所述第一语句样本中的所述词语包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

21、选取多个所述词语中的目标词语;

22、根据所述目标词语,对所述第一语句样本进行词语增添处理;

23、根据所述词语增添处理的结果,确定所述第二语句样本。

24、如此,本申请实施方式可根据第一语句样本中的目标词语,对第一语句样本进行词语增添处理,得到因词语冗余而导致不通顺的第二语句样本,在一定程度上使得第二语句样本的可靠获取得以保障。

25、在本申请某些实施方式中,所述根据所述目标词语,对所述第一语句样本进行词语增添处理,包括:

26、增添所述目标词语于所述第一语句样本中。

27、如此,本申请实施方式可通过在第一语句样本中增添一个目标词语,从而可将包括两个目标词语的第一语句样本作为第二语句样本,在一定程度上保障了第二语句样本的可靠获取。

28、在本申请某些实施方式中,所述根据所述目标词语,对所述第一语句样本进行词语增添处理,包括:

29、增添与所述目标词语相对应的同义词于所述第一语句样本中。

30、如此,本申请实施方式可通过在第一语句样本中增添一个目标词语的同义词,从而可将包括目标词语及目标词语的同义词的第一语句样本作为第二语句样本,在一定程度上保障了第二语句样本的可靠获取。

31、在本申请某些实施方式中,所述第一语句样本包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

32、选取多个所述第一语句样本中的目标样本;

33、选取预先设置的多种语句处理操作中的第一目标语句处理操作;

34、基于所述目标样本的词语和词性,对所述目标样本进行所述目标语句处理操作,得到所述第二语句样本。

35、如此,本申请实施方式可根据选取多种语句操作处理以得到目标语句操作处理,及对多个第一语句样本中的目标样本进行目标语句操作处理,由此得到第二语句样本,在一定程度上保障了第二语句样本的可靠获取。

36、在本申请某些实施方式中,所述基于所述目标样本的词语和词性,对所述目标样本进行所述目标语句处理操作,得到所述第二语句样本,包括:

37、基于所述目标样本的词语和词性,对所述目标样本进行所述目标语句处理操作,得到第一候选语句样本,其中,所述候选语句样本满足所述第二预设条件;

38、选取所述多种语句处理操作中的第二目标语句处理操作;

39、基于所述目标样本的词语和词性,对所述目标样本进行所述第二目标语句处理操作,得到第二候选语句样本;

40、在所述第二目标语句处理操作未与所述第一目标语句处理操作匹配的情况下,将所述第一候选语句样本和所述第二候选语句样本分别确定为所述第二语句样本。

41、如此,本申请实施方式的服务器可在前后选取的第一目标语句处理操作和第二不相同的情况下,将第一候选语句样本与第二候选语句样本分别作为第二语句样本以输出,从而能在一定程度上避免训练数据中一种语义对应多个第二语句样本,进而导致后续进行模型训练时模型过拟合的情况出现,在一定程度上保障了第二语句样本的合理选取。

42、在本申请某些实施方式中,所述选取所述多种语句处理操作中的第二目标语句处理操作,包括:

43、在所述第二目标语句处理操作与所述第一目标语句处理操作匹配的情况下,选取所述多种语句处理操作中的新的第二目标语句处理操作。

44本文档来自技高网...

【技术保护点】

1.一种训练数据的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一语句样本包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一语句样本中的所述词语包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

6.根据权利要求1所述的方法,其特征在于,所述第一语句样本包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述目标样本的词语和词性,对所述目标样本进行所述目标语句处理操作,得到所述第二语句样本,包括:

8.根据权利要求7所述的方法,其特征在于,所述选取所述多种语句处理操作中的第二目标语句处理操作,包括:

9.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-8任意一项所述的方法。

...

【技术特征摘要】

1.一种训练数据的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述第一语句样本包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

5.根据权利要求1所述的方法,其特征在于,所述第一语句样本中的所述词语包括多个,所述基于所述词语和所述词性,根据所述第一语句样本确定第二语句样本,包括:

6.根据权利要求1所述的方法,其特征在于,所述第一语句样本...

【专利技术属性】
技术研发人员:张文君
申请(专利权)人:广州小鹏汽车科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1