System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对话文本分割方法、设备、存储介质及程序产品技术_技高网

对话文本分割方法、设备、存储介质及程序产品技术

技术编号:44929216 阅读:11 留言:0更新日期:2025-04-08 19:10
本申请提供一种对话文本分割方法、设备、存储介质及程序产品,该方法包括:对原始对话文本进行降噪处理,以得到相应的除噪对话文本;从原始对话文本和除噪对话文本中,分别提取相应的第一分割点集合和第二分割点集合;合并第一分割点集合和第二分割点集合,以得到目标分割点集合;基于目标分割点集合,对原始对话文本进行分割。由此,通过合并两个分割点集合,同时利用原始对话文本和除噪后的对话文本这两种信息源互补的优势,提供了多视角的数据支持,使得分割点的提取更加全面和准确。

【技术实现步骤摘要】

本申请涉及文本处理,尤其涉及一种对话文本分割方法、设备、存储介质及程序产品


技术介绍

1、在当今数字化信息爆炸的时代,对话数据呈海量增长态势,对话文本分割技术作为自然语言处理领域的关键环节,对于从对话中挖掘有价值信息起着极为重要的基石作用。

2、对话文本分割方法主要可分为基于无监督的文本分割算法和基于有监督的文本分割算法。基于无监督的文本分割方法主要依赖于文本自身的统计特性和语言结构规律,而无需大量的标注数据进行训练。基于有监督的文本分割方法则利用大量已标注好分割边界的对话文本数据进行训练,从而学习到能够预测分割点的模型。

3、然而,在基于无监督的文本分割方法中,缺乏正确的标签数据作为引导,导致最终的文本分割效果都是比较差的,单纯的采用文本相似度来计算文本切割位置在一些对话场景下基本不可用,例如会议对话场景中其所切分出来的段落没有明显的主题差异。

4、在基于有监督的文本分割方法中,能够有效的提升分段的效果,但是无法处理对话数据中交替主题、无效主题和口语化的问题。在明显的主题分割位置现有的模型都能提取出正确的结果,但是在一些模糊不清、主题嵌套的情况下,无法得到很好的效果。此外,由于不同类型的对话场景对主题的定义不同,现有的监督式算法也很难在多对话场景下达到通用性的效果。

5、针对上述问题,目前业界暂未提出较佳的解决方案。


技术实现思路

1、本申请提供一种对话文本分割方法、设备、存储介质及程序产品,用以至少解决现有的文本分割算法无法较佳地在多对话场景下适用的问题。

2、第一方面,本申请实施例提供一种对话文本分割方法,包括:对原始对话文本进行降噪处理,以得到相应的除噪对话文本;从所述原始对话文本和所述除噪对话文本中,分别提取相应的第一分割点集合和第二分割点集合;合并所述第一分割点集合和所述第二分割点集合,以得到目标分割点集合;基于所述目标分割点集合,对所述原始对话文本进行分割。

3、第二方面,本申请实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例的对话文本分割方法的步骤。

4、第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请任一实施例的对话文本分割方法的步骤。

5、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任一实施例的对话文本分割方法的步骤。

6、本申请实施例的有益效果在于:

7、从原始对话文本和除噪后的对话文本中分别提取第一分割点集合和第二分割点集合,充分考虑了不同数据处理方式对分割点识别的影响,原始对话文本中的分割点能捕捉到基于语言结构的明显边界,而除噪后的文本则能弥补原始数据中文本内部因噪音影响而漏掉的隐性边界。通过合并这两个分割点集合,可以利用两种信息源互补的优势,提供了多视角的数据支持,使得分割点的提取更加全面和准确。

本文档来自技高网...

【技术保护点】

1.一种对话文本分割方法,包括:

2.根据权利要求1所述的方法,其中,所述对原始对话文本进行降噪处理,以得到相应的除噪对话文本,包括:

3.根据权利要求1所述的方法,其中,所述从所述原始对话文本和所述除噪对话文本中,分别提取相应的第一分割点集合和第二分割点集合,包括:

4.根据权利要求3所述的方法,其中,所述尾句分类模型采用词元分类模型,并用于识别句子集中各个句子的首个词元和/或最后一个词元是否为段落结尾词元,以将包含段落结尾词元的句子确定为段落尾句。

5.根据权利要求4所述的方法,其中,所述尾句分类模型的损失函数为:

6.根据权利要求1所述的方法,其中,所述合并所述第一分割点集合和所述第二分割点集合,以得到目标分割点集合,包括:

7.根据权利要求6所述的方法,其中,所述合并所述第一分割点集合和所述映射分割点集合,以得到相应的目标分割点集合,包括:

8.一种存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

...

【技术特征摘要】

1.一种对话文本分割方法,包括:

2.根据权利要求1所述的方法,其中,所述对原始对话文本进行降噪处理,以得到相应的除噪对话文本,包括:

3.根据权利要求1所述的方法,其中,所述从所述原始对话文本和所述除噪对话文本中,分别提取相应的第一分割点集合和第二分割点集合,包括:

4.根据权利要求3所述的方法,其中,所述尾句分类模型采用词元分类模型,并用于识别句子集中各个句子的首个词元和/或最后一个词元是否为段落结尾词元,以将包含段落结尾词元的句子确定为段落尾句。

5.根据权利要求4所述的方法,其中,所述尾句分类模型的损失函数为:

6.根据权利要求1所述的方法,其中,所述合并所述第一分割点集合和所述第二分割点集合,以...

【专利技术属性】
技术研发人员:徐华樊帅
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1