数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：39239849 阅读：26 留言：0更新日期：2023-10-30 11:52

本公开关于一种数据处理方法、装置、电子设备及存储介质，该方法包括：获取历史问答信息中的多个历史分词；对多个历史分词进行编码处理，得到多个分词编码信息；将多个分词编码信息输入至显式词分类网络进行分类处理，得到多个分词编码信息对应的分词类别信息；基于概括信息识别网络、分词类别信息和多个分词编码信息进行概括识别处理，得到目标分词序列，概括信息识别网络用于在基于分词类别信息对多个历史分词进行类别权重控制的基础上，从目标分词中识别历史问答信息的概括信息；基于目标分词序列，生成目标问答概括信息。利用本公开实施例可以减轻重要信息丢失的问题，进而可以提高目标问答概括信息所表示的历史问答信息的准确度。的准确度。的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质

[0001]本公开涉及人工智能
，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
[0003]随着社会的发展和通讯技术的进步，对话数据日益增多，对话的形式也多种多样，例如：会议、邮件、闲聊、讨论、辩论等等。对话的概括技术可以从复杂的对话数据中提取关键信息，从而大大降低理解对话数据的难度，更好地辅助下游任务。现有的方法中，通常使用seq2seq模型(sequence
‑
to
‑
sequence...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取历史问答信息中的多个历史分词；对所述多个历史分词进行编码处理，得到多个分词编码信息；将所述多个分词编码信息输入至显式词分类网络进行分类处理，得到所述多个分词编码信息对应的分词类别信息；所述分词类别信息表征任一所述分词编码信息对应的历史分词出现在目标问答概括信息中的概率；基于概括信息识别网络、所述分词类别信息和所述多个分词编码信息进行概括识别处理，得到目标分词序列；所述概括信息识别网络用于在基于所述分词类别信息对多个历史分词进行类别权重控制的基础上，从目标分词中识别所述历史问答信息的概括信息；所述目标分词包括所述多个历史分词和预设分词集合；基于所述目标分词序列，生成所述目标问答概括信息。2.根据权利要求1所述的方法，其特征在于，所述基于概括信息识别网络、所述分词类别信息和所述多个分词编码信息进行概括识别处理，得到目标分词序列，包括：获取预设编码信息；将所述分词类别信息、所述多个分词编码信息和所述预设编码信息输入至所述概括信息识别网络进行概括信息识别处理，得到当前分词指示信息；所述当前分词指示信息表征所述目标分词中每一分词属于当前预测分词的概率，所述当前预测分词为当前被识别为所述历史问答信息的概括信息的分词；将所述当前分词指示信息中的最大概率对应的分词，作为所述当前预测分词；将所述当前预测分词加入预设分词序列；基于所述当前预测分词对应的分词编码信息，更新所述预设编码信息，得到更新后的预设编码信息；基于所述更新后的预设编码信息和当前的预设分词序列，重复所述将所述分词类别信息、所述多个分词编码信息和所述预设编码信息输入至所述概括信息识别网络进行概括信息识别处理，得到当前分词指示信息至所述基于所述当前预测分词对应的分词编码信息，更新所述预设编码信息，得到更新后的预设编码信息的迭代识别步骤，直至当前分词指示信息中的最大概率对应的分词为结束指示分词，将当前的预设分词序列作为所述目标分词序列。3.根据权利要求2所述的方法，其特征在于，所述概括信息识别网络包括第一分析网络、第二分析网络、第三分析网络和第四分析网络，所述将所述分词类别信息、所述多个分词编码信息和所述预设编码信息输入至所述概括信息识别网络进行概括信息识别处理，得到当前分词指示信息，包括：将所述分词类别信息、所述预设编码信息和所述多个分词编码信息输入至所述第一分析网络进行注意力分析，得到所述多个分词编码信息对应的目标分布信息，所述目标分布信息表征任一所述分词编码信息在当前时刻对所述历史问答信息的表征权重；将所述目标分布信息和所述多个分词编码信息输入至所述第二分析网络进行文本特征分析，得到所述预设编码信息对应的文本特征信息；所述文本特征信息为在基于所述预设编码信息对所述多个分词编码信息进行权重控制的基础上，对所述历史问答信息的特征表征；
将所述文本特征信息和所述预设编码信息输入至所述第三分析网络进行分词分析，得到预测分词指示信息；所述预测分词指示信息表征所述预设分词集合中每一分词属于所述当前预测分词的概率；将所述文本特征信息、所述预设编码信息、所述目标分布信息和所述预测分词指示信息输入至所述第四分析网络进行分词预测分析，得到所述当前分词指示信息。4.根据权利要求3所述的方法，其特征在于，所述第四分析网络包括第一分析子网络和第二分析子网络，所述将所述文本特征信息、所述预设编码信息、所述目标分布信息和所述预测分词指示信息输入至所述第四分析网络进行分词预测分析，得到所述当前分词指示信息，包括：将所述文本特征信息、所述预设编码信息输入至所述第一分析子网络进行门控分析，得到所述多个分词编码信息对应的目标门控信息，所述目标门...

【专利技术属性】
技术研发人员：鞠美芝，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人