基于注意力的对话文本分类方法、系统、设备及存储介质技术方案

技术编号：32784836 阅读：14 留言：0更新日期：2022-03-23 19:44

本发明专利技术提供了基于注意力的对话文本分类方法、系统、设备及存储介质，该方法包括：将待分类的对话进行分割获得子语句，通过分词模型输出对子语句进行分词后的词序列，将每个子语句的词序列作为双向长短期记忆LSTM网络的输入进行语义特征提取，获得正向的第一隐层特征和反向的第二隐层特征；将每个子语句的将第一隐层特征和第二隐层特征分别作为第一类词向量和第二类词向量，分别进行交互注意力对齐；将每个子语句的二次交互注意力对齐分别获得的隐层特征拼接在一起，作为子语句的第三隐层特征；对具有第三隐层特征的子语句进行文本分类。本发明专利技术能够在保证速度的前提下，有效地提升文本分类的准确率，提高了生产效率，减小了人力物力的损耗。人力物力的损耗。人力物力的损耗。

全部详细技术资料下载

【技术实现步骤摘要】
基于注意力的对话文本分类方法、系统、设备及存储介质

[0001]本专利技术涉及自然语言处理领域，具体地说，涉及基于注意力的对话文本分类方法、系统、设备及存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]在OTA网站(在线旅游公司)的客人客服对话场景中，实时性是一个非常大的要求，这也意味着保证实时性的同时无法使用大型的模型结果(会拖慢推理速度)，因此主要的技术难点在于如何既使用小型的模型结构，保证速度的前提下，又能够提升模型性能。
[0004]因此，本专利技术提供了一种基于注意力的对话文本分类方法、系统、设备及存储介质。

技术实现思路

[0005]针对现有技术中的问题，本专利技术的目的在于提供基于注意力的对话文本分类方法、系统、设备及存储介质，克服了现有技术的困难，能够在保证速度...

【技术保护点】

【技术特征摘要】
1.一种基于注意力的对话文本分类方法，其特征在于，包括以下步骤：S110、将待分类的对话进行分割获得子语句；S120、将所述子语句作为分词模型的输入，通过所述分词模型输出对所述子语句进行分词后的词序列；S130、将每个所述子语句的所述词序列作为双向长短期记忆LSTM网络的输入进行语义特征提取，获得正向的第一隐层特征和反向的第二隐层特征；S140、将每个所述子语句的将第一隐层特征和第二隐层特征分别作为第一类词向量和第二类词向量，分别进行交互注意力对齐；S150、将每个所述子语句的二次交互注意力对齐分别获得的隐层特征拼接在一起，作为所述子语句的第三隐层特征；S160、对具有所述第三隐层特征的子语句进行文本分类。2.根据权利要求1所述的基于注意力的对话文本分类方法，其特征在于，所述步骤S110之前还包括：S100、去掉所述待分类的对话文本中的预设无意义字符，并将所述待分类的对话文本中的句子拼接在一起，形成拼接文本，所述预设无意义字符至少包括标点符号和杂乱字符。3.根据权利要求2所述的基于注意力的对话文本分类方法，其特征在于，所述步骤S110包括：S111、判断当前句子的字数是否小于等于预设字数，若是，则执行步骤S112；若否，则执行步骤S113；S112、将当前句子作为子语句，执行步骤S114；S113、按照所述预设字数对所述当前句子进行分割，获得至少两子语句；S114对于字数小于所述预设字数的所述子语句，则采用无效字符补齐到满足所述预设字数，所述无效字符为0。4.根据权利要求1所述的基于注意力的对话文本分类方法，其特征在于，所述步骤S120包括：所述分词模型为word2vec词向量模型，通过所述word2vec词向量模型对所述子语句进行分词，并根据所述分词在所述子语句的顺序输出词序列。5.根据权利要求1所述的基于注意力的对话文本分类方法，其特征在于，所述步骤S140包括：S141、将每个所述子语句的将第一隐层特征作为query词向量，第二隐层特征作为key词向量和value词向量，进行第一次交互注...

【专利技术属性】
技术研发人员：王森灏，罗超，
申请(专利权)人：携程旅游信息技术上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人