System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种聊天内容的检测方法、系统和存储介质技术方案_技高网

一种聊天内容的检测方法、系统和存储介质技术方案

技术编号:40945633 阅读:2 留言:0更新日期:2024-04-18 15:03
本申请提供一种聊天内容的检测方法,包括:构建场景对应的训练样本;所述训练样本包括场景、文字和文字类别;根据所述训练样本,利用生成式预训练模型进行训练,得到内容检测模型;其中,在对所述训练样本训练过程中,对所述场景和所述文字进行掩盖处理;应用所述内容检测模型对所述聊天内容进行检测,得到检测结果。本申请通过构建场景对应的训练样本,使得训练得到的内容检测模型能够感知场景,使得模型注意力集中于文字类别。在训练过程考虑了聊天场景,参考了对话的上下文,可提升用户使用体验。同时内容检测模型的构建难度和成本较低,便于通过描述性的语言驱动模型训练。本申请还提供一种聊天内容的检测系统和存储介质,具有上述有益效果。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种聊天内容的检测方法、系统和存储介质


技术介绍

1、相比于传统的针对单轮内容的建模,多轮对话的文字类别建模方法需要去考虑多人消息的问题,同时也比传统内容建模多了很多引申的内容理解。

2、当前,对话模型无法结合对话过程中的上下文进行答复,通常只考虑用户所提问的最后一句,使得对话过程过于僵硬,影响用户使用体验。


技术实现思路

1、本申请的目的是提供一种聊天内容的检测方法、系统和存储介质,综合考虑对话的场景、内容等上下文,考虑对话双方的基础信息,提升用户使用体验。

2、为解决上述技术问题,本申请提供一种聊天内容的检测方法,具体技术方案如下:

3、构建场景对应的训练样本;所述训练样本包括场景、文字和文字类别;

4、根据所述训练样本,利用生成式预训练模型进行训练,得到内容检测模型;其中,在对所述训练样本训练过程中,对所述场景和所述文字进行掩盖处理;

5、应用所述内容检测模型对所述聊天内容进行检测,得到检测结果。

6、可选的,构建场景对应的训练样本包括:

7、构建场景信息;所述场景信息包括聊天场景和帖子广场场景;

8、将所述场景信息作为场景标记拼接至训练样本的前端;

9、获取所述场景信息,拼接业务场景对应的文字和文字类别,组装为一条所述训练样本。

10、可选的,将所述场景信息作为场景标记拼接至训练样本的前端时,还包括:

11、在所述训练样本中添加对话双方的基础信息。

12、可选的,拼接业务场景对应的文字和文字类别之前,还包括:

13、根据人工标注结果对所述训练样本进行标记,得到所述文字类别。

14、可选的,构建场景对应的训练样本时,还包括:

15、调整各所述文字类别的数量占比,并设置所述训练样本的数量上限。

16、可选的,所述对所述场景和所述文字进行掩盖处理包括:

17、在所述场景和所述文字后均添加第一掩盖处理标识符;相应的,所述文字类别后添加第二掩盖处理标识符;在对所述训练样本训练过程中,包含所述第一掩盖处理标识符的对象不参与权重更新,包含所述第二掩盖处理标识符的对象参与权重更新。

18、可选的,应用所述内容检测模型对所述聊天内容进行检测,得到检测结果包括:

19、利用所述内容检测模型对所述聊天内容中的每个分词处理,得到相应数组;

20、计算每个所述数组的解码概率;

21、取所述解码概率最大值对应的分词作为检测结果。

22、可选的,取所述解码概率最大值对应的分词作为检测结果时,还包括:

23、设定检测结果输出标记数量;

24、对所述解码概率从大到小排序,得到概率序列;

25、取所述概率序列头部中与所述检测结果输出标记数量相同的解码概率对应的分词,作为检测结果。

26、本申请还提供一种聊天内容的检测系统,包括:

27、样本构建模块,用于构建场景对应的训练样本;所述训练样本包括场景、文字和文字类别;

28、模型训练模块,用于根据所述训练样本,利用生成式预训练模型进行训练,得到内容检测模型;其中,在对所述训练样本训练过程中,对所述场景和所述文字进行掩盖处理;

29、内容检测模块,用于应用所述内容检测模型对所述聊天内容进行检测,得到检测结果。

30、可选的,样本构建模块包括:

31、场景构建单元,用于构建场景信息;所述场景信息包括聊天场景和帖子广场场景;

32、标记拼接单元,用于将所述场景信息作为场景标记拼接至训练样本的前端;

33、样本组装单元,用于获取所述场景信息,拼接业务场景对应的文字和文字类别,组装为一条所述训练样本。

34、可选的,样本构建模块还包括:

35、基础信息设定单元,用于在所述训练样本中添加对话双方的基础信息。

36、可选的,样本组装单元还包括:

37、类别标记子单元,用于根据人工标注结果对所述训练样本进行标记,得到所述文字类别。

38、可选的,样本构建模块包括:

39、样本配置单元,用于调整各所述文字类别的数量占比,并设置所述训练样本的数量上限。

40、可选的,模型训练模块包括:

41、掩盖处理单元,用于在所述场景和所述文字后均添加第一掩盖处理标识符;相应的,所述文字类别后添加第二掩盖处理标识符;在对所述训练样本训练过程中,包含所述第一掩盖处理标识符的对象不参与权重更新,包含所述第二掩盖处理标识符的对象参与权重更新。

42、可选的,内容检测模块包括:

43、解码单元,用于利用所述内容检测模型对所述聊天内容中的每个分词处理,得到相应数组;计算每个所述数组的解码概率;取所述解码概率最大值对应的分词作为检测结果。

44、可选的,解码单元还包括:

45、参数设定单元,用于设定检测结果输出标记数量;对所述解码概率从大到小排序,得到概率序列;取所述概率序列头部中与所述检测结果输出标记数量相同的解码概率对应的分词,作为检测结果。

46、本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。

47、本申请还提供一种服务器,包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

48、本申请提供一种聊天内容的检测方法,包括:构建场景对应的训练样本;所述训练样本包括场景、文字和文字类别;根据所述训练样本,利用生成式预训练模型进行训练,得到内容检测模型;其中,在对所述训练样本训练过程中,对所述场景和所述文字进行掩盖处理;应用所述内容检测模型对所述聊天内容进行检测,得到检测结果。

49、本申请通过构建场景对应的训练样本,使得训练得到的内容检测模型能够感知场景,使得模型注意力集中于文字类别。在训练过程考虑了聊天场景,参考了对话的上下文,可提升用户使用体验。同时内容检测模型的构建难度和成本较低,便于通过描述性的语言驱动模型训练。

50、本申请还提供一种聊天内容的检测系统和存储介质,具有上述有益效果,此处不再赘述。

本文档来自技高网...

【技术保护点】

1.一种聊天内容的检测方法,其特征在于,包括:

2.根据权利要求1所述的聊天内容建模方法,其特征在于,构建场景对应的训练样本包括:

3.根据权利要求2所述的聊天内容建模方法,其特征在于,将所述场景信息作为场景标记拼接至训练样本的前端时,还包括:

4.根据权利要求2所述的聊天内容建模方法,其特征在于,拼接业务场景对应的文字和文字类别之前,还包括:

5.根据权利要求4所述的聊天内容建模方法,其特征在于,构建场景对应的训练样本时,还包括:

6.根据权利要求1所述的聊天内容建模方法,其特征在于,所述对所述场景和所述文字进行掩盖处理包括:

7.根据权利要求1所述的聊天内容建模方法,其特征在于,应用所述内容检测模型对所述聊天内容进行检测,得到检测结果包括:

8.根据权利要求7所述的聊天内容建模方法,其特征在于,取所述解码概率最大值对应的分词作为检测结果时,还包括:

9.一种聊天内容的检测系统,其特征在于,包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种聊天内容的检测方法,其特征在于,包括:

2.根据权利要求1所述的聊天内容建模方法,其特征在于,构建场景对应的训练样本包括:

3.根据权利要求2所述的聊天内容建模方法,其特征在于,将所述场景信息作为场景标记拼接至训练样本的前端时,还包括:

4.根据权利要求2所述的聊天内容建模方法,其特征在于,拼接业务场景对应的文字和文字类别之前,还包括:

5.根据权利要求4所述的聊天内容建模方法,其特征在于,构建场景对应的训练样本时,还包括:

6.根据权利要求1所述的聊天内...

【专利技术属性】
技术研发人员:李孟霖尹顺顺张璐陶明
申请(专利权)人:上海任意门科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1