一种针对5G新通话环境的长对话关键信息提取方法技术

技术编号：45058404 阅读：13 留言：0更新日期：2025-04-22 17:41

本发明专利技术涉及一种面向5G新通话的长对话信息提取方法，所述方法包括的步骤：其一为语音信号的采集与预处理：系统通过5G通话设备采集第一用户与第二用户之间的语音信号；其二为语自动语音识别：自动语音识别技术将预处理后的语音信号转换为文本数据；其三为通过迭代方式进行关键信息提取；其四是输出结果解析。本发明专利技术通过多层次关键信息提取与迭代优化机制，显著增强了大语言模型(LLM)在长对话场景中的信息提取能力。该方法有效缓解了长文本理解的复杂性和计算资源的限制问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，具体为一种针对5g新通话环境的长对话关键信息提取方法。

技术介绍

1、目前，面向5g新通话环境下的长对话信息提取技术主要涉及自动语音识别(automatic speech recognition，asr)、文本摘要、关键词提取及待办事项提取等关键技术。由于asr仅是信息处理流程中的初始步骤，本文不对其进行深入讨论。文本摘要方法包括基于统计的抽取式摘要和生成式摘要。基于统计的抽取式摘要方法通过提取文本中的关键句子或短语来生成摘要,生成式摘要方法则利用语言模型生成新的句子来构建摘要。抽取式摘要在语法、句法上有一定的保证，但是也面临了一定的问题，例如：内容选择错误、连贯性差、灵活性差等问题。生成式摘要允许摘要中包含新的词语或短语，灵活性高。大语言模型(large language model，llm)由于其在其强大的语义理解能力和灵活的生成方式，其生成的摘要表现出高度的流畅性和连贯性。关键词是能够表达文档中心内容的词语，传统的关键字提取方法包括基于频率的方法、基于图的方法和统计方法，这些方法在自然语言处理(nlp)领域具有奠基性的作用。然而，llm的出现开创了关键词提取的新时代，它可以准确无误地捕捉上下文的细微差别、语义关系和特定领域的复杂性。llm在捕捉上下文和语义方面的能力得到了增强，因此更适合在复杂的语言领域中提取关键词。待办事项是需要在未来某个时间点完成的任务或活动的列表。llm兴起之前，待办事项提取采用基于规则的方法和文本分类方法来识别待办事项。基于规则的方法适合简单、结构化的场景，适用性有限但可

2、在设计llm时，开发者通常会设置输入文本长度的上限，以平衡模型的能力与计算性能。因此，在处理长文本时，往往需要对文本进行截断或分割，以满足输入长度的约束。随着llm的不断发展，支持的最大token数量也在逐步增加，从最初的4k、8k扩展到目前的16k、32k，甚至达到128k。这一进步为长文本处理提供了更强大的支持，但也引发了一系列新的挑战：

3、1.计算资源限制

4、尽管当前的llm在理论上能够支持更长的token序列，但计算资源(尤其是gpu显存)仍然是实际应用中的主要瓶颈。例如，即便输入文本在128k token范围内，受限于显存容量，系统可能无法一次性处理完整样本。因此，gpu显存容量成为长文本处理中的一个关键限制因素。

5、2.模型理解能力不足

6、在资源充足的情况下，许多开源llm在长文本理解和总结方面仍存在不足。一次性输入过多token可能导致模型难以准确捕捉关键信息，甚至产生”幻觉”现象。因此，如何确保模型在长文本处理过程中能够全面理解各个片段，并有效提取关键信息，是一个重要研究方向。

技术实现思路

1、本专利技术的目的在于提供一种针对5g新通话环境的长对话关键信息提取方法，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种针对5g新通话环境的长对话关键信息提取方法，所述方法包括如下步骤：

3、步骤1：语音信号的采集与预处理：系统通过5g通话设备采集第一用户与第二用户之间的语音信号；

4、步骤2：自动语音识别：自动语音识别技术将预处理后的语音信号转换为文本数据；

5、步骤3：关键信息提取，所述关键信息提取包括如下子步骤：

6、子步骤31：对所述长文本根据预设的分割标准进行拆分，得到拆分后的多个短文本片段；

7、子步骤32：将短文本片段与第一提示词prompt 1输入到大语言模型llm中生成关键信息：大语言模型llm生成的提取结果包括待办事项、关键词和文本摘要；

8、子步骤33：通过迭代方式提取结果：取第一阶段的部分结果并拼接第二提示词prompt2，再次输入大语言模型llm，生成第二阶段的关键信息提取结果。将r1,1,…,r1,m拼接后与prompt 2输入llm，生成第二阶段的关键信息提取结果r2,1。依次类推，将r1,n,…,r1,i拼接后与prompt 2输入llm，得到第二阶段的结果r2,j。

9、r1，1，…，r1，m→r2，1；…；r1，n，…，r1，i→r2，j

10、每次迭代中，上一阶段的输出(rn,i)会作为下一阶段的输入，与第二提示词prompt2拼接后再次输入大语言模型llm进行处理；这一过程持续迭代，直至输入文本和第二提示词prompt2的总长度能够一次性输入到大语言模型llm中，生成最终关键信息提取结果r；

11、步骤4：输出结果解析。

12、优选地，所述短文本片段长度受限于输入长度与第一提示词prompt 1长度的差值。

13、优选地，拼接长度同样受限于系统设置的输入token长度与prompt2的token长度之差。

14、优选地，所述大语言模型llm，包括开源模型和/或闭源模型。

15、与现有技术相比，本专利技术的有益效果是：

16、本专利技术能增强长对话理解能力，有效克服了大语言模型(llm)在处理长对话输入时面临的理解不足问题，通过多层次信息提取与优化机制，提升了对复杂长文本的处理精度。

17、同时优化计算资源利用，解决了随着输入token数量增加导致的llm推理阶段gpu计算资源需求显著增长的挑战，从而提高系统的资源利用效率。

本文档来自技高网...

【技术保护点】

1.一种针对5G新通话环境的长对话关键信息提取方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种针对5G新通话环境的长对话关键信息提取方法，其特征在于：所述短文本片段长度受限于输入长度与第一提示词Prompt 1长度的差值。

3.根据权利要求1所述的一种针对5G新通话环境的长对话关键信息提取方法，其特征在于：拼接长度受限于系统设置的输入长度与Prompt2的长度之差。

4.根据权利要求1所述的一种针对5G新通话环境的长对话关键信息提取方法，其特征在于：所述大语言模型LLM，包括开源模型和/或闭源模型。

【技术特征摘要】

1.一种针对5g新通话环境的长对话关键信息提取方法，其特征在于：所述方法包括如下步骤：

2.根据权利要求1所述的一种针对5g新通话环境的长对话关键信息提取方法，其特征在于：所述短文本片段长度受限于输入长度与第一提示词prompt 1长度的差值。

3.根据权利...

【专利技术属性】
技术研发人员：罗岚，张晶晶，陈家志，乔治，李雪欣，汪秋波，邹西山，李韩，弋翔，温雪阳，邓宇翔，罗志亮，陈静娴，陈星，
申请(专利权)人：联通沃音乐文化有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人