口语文本生成方法、装置、设备及存储介质制造方法及图纸

技术编号：34980994 阅读：34 留言：0更新日期：2022-09-21 14:24

本公开提供一种口语文本生成方法、装置、设备及存储介质。该方法包括：获取原始书面文本、文本意图及口语特征向量，并输入到口语文本生成模块中；对原始书面文本及文本意图进行拼接得到文本意图对，利用书面文本编码器对文本意图对进行编码，得到书面文本语义向量；将书面文本语义向量及口语特征向量输入到口语文本解码器，进行编码得到口语文本语义向量；利用口语文本生成器对口语文本语义向量进行解码得到口语文本；将原始书面文本和口语文本输入到语义一致性打分模块中进行打分，将一致性打分结果大于预设阈值的口语文本作为生成的口语文本。本公开能够生成通顺、语义清晰的口语文本，生成的口语文本可用于训练神经网络，提升对话系统的性能。提升对话系统的性能。提升对话系统的性能。

全部详细技术资料下载

【技术实现步骤摘要】
口语文本生成方法、装置、设备及存储介质

[0001]本公开涉及数据处理
，尤其涉及一种口语文本生成方法、装置、设备及存储介质。

技术介绍

[0002]随着自然语言技术的不断发展，智能音箱、智能机器人、语音助手、自动客服等越来越多的智能问答系统和对话系统在生活中发挥作用。智能问答系统和对话系统等产品以人机语音交互方式为主，通常是先获取用户输入的语音信息，通过语音识别技术将语音转换成文本，再通过语义理解技术识别用户的文本意图。意图识别作为对话系统中的重要部分，对于保证用户的使用体验有着至关重要的作用。
[0003]现有技术中，当前业内普遍使用规则模版和深度学习结合的方法来实现意图识别的功能，这种方法在基于大量数据以及人为设置的特征模板下，能够较好的理解用户的真正意图。然而，在实际的口语对话场景中，用户的表述往往与书面文本不同，经常出现包括结巴、拖长音、语序颠倒、增加插入语在内的口语习惯。这种口语习惯具有非常多的变化，因此传统的规则模版往往花费非常多的资源也不能很好地覆盖；同时业内的口语文本的数据集较少，且存在语句不通顺，语义不清晰等问题，因此神经网络也无法精准地对这种口语文本进行意图识别，更无法提升对话系统的性能。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种口语文本生成方法、装置、设备及存储介质，以解决现有技术存在的口语文本数据集少，口语文本的语句不通顺，语义不清晰，生成的口语文本无法用于训练神经网络，无法提升对话系统性能的问题。
[0005]本公开实施例的第一方面，...

【技术保护点】

【技术特征摘要】
1.一种口语文本生成方法，其特征在于，包括：获取用于生成口语文本的原始书面文本，并确定所述原始书面文本对应的文本意图以及口语特征向量，将所述原始书面文本、所述文本意图以及所述口语特征向量组成的数据集输入到预先训练好的口语文本生成模块中；对所述原始书面文本以及所述文本意图进行拼接得到文本意图对，将所述文本意图对作为所述口语文本生成模块中的书面文本编码器的输入，利用所述书面文本编码器对所述文本意图对进行编码，得到书面文本语义向量；将所述书面文本语义向量以及所述口语特征向量作为所述口语文本生成模块中的口语文本解码器的输入，利用所述口语文本解码器进行编码，得到口语文本语义向量；将所述口语文本语义向量作为所述口语文本生成模块中的口语文本生成器的输入，利用所述口语文本生成器对所述口语文本语义向量进行解码，得到与所述原始书面文本对应的口语文本；将所述原始书面文本以及所述口语文本输入到预先训练好的语义一致性打分模块中，利用所述语义一致性打分模块对所述原始书面文本与所述口语文本之间进行语义的一致性打分，将一致性打分结果大于预设阈值的所述原始书面文本对应的所述口语文本作为生成的口语文本。2.根据权利要求1所述的方法，其特征在于，所述获取用于生成口语文本的原始书面文本，并确定所述原始书面文本对应的文本意图以及口语特征向量，包括：从预设场景的对话系统的数据库中采集多个书面文本，将采集到的所述多个书面文本作为原始书面文本，为每个所述原始书面文本匹配对应的文本意图，并基于预设的口语特征生成口语特征向量。3.根据权利要求1所述的方法，其特征在于，在对所述口语文本生成模块进行训练之前，所述方法还包括：获取历史对话场景下产生的书面文本以及所述书面文本对应的意图，利用预设的口语特征规则，对所述书面文本进行处理得到多个口语文本，并确定每个所述口语文本与所述书面文本之间的差异内容，以及所述口语特征规则对应的口语特征；为每个所述书面文本以及该书面文本对应的多个口语文本，分别进行句子的通顺性以及语义的一致性进行标记，将所述书面文本、所述口语文本以及所述语义的一致性进行整理生成第一训练集；选取一定比例的所述书面文本以及所述书面文本对应的口语文本，并结合所述书面文本与所述口语文本之间的差异内容、所述书面文本对应的意图、以及所述句子的通顺性生成第二训练集；选取另一比例的句子通顺的数据生成第三训练集，其中所述句子通顺的数据中包含所述书面文本、所述口语文本、所述意图以及所述口语特征。4.根据权利要求3所述的方法，其特征在于，利用所述第二训练集分别对所述书面文本编码器和所述口语文本解码器进行预训练；其中，所述书面文本编码器采用预训练的BERT模型，采用以下方式对所述书面文本编码器对应的BERT模型进行预训练，包括：在基于口语特征遮掩语言模型任务作为预训练任务对所述书面文本编码器进行预训
练时，将所述第二训练集中每一条文本数据中的差异内容，随机选择一定比例的单词进行替换，对于每一个被替换的单词，按照一定的概率进行掩码，并且按照另一概率替换成其他单词；在基于意图识别任务作为预训练任务对所述书面文本编码器进行预训练时，将所述第二训练集中的每一条文本数据以及文本的意图，按照一定的概率将所述文本的意图修改为其他意图；将所述文本及意图组成的文本意图数据，以及所述文本及其他意图组成的文本意图数据，分别作为意图识别任务的输入，利用意图识别任务对所述文本意图数据的进行预测，判断所述文本与意图...

【专利技术属性】
技术研发人员：郭俊廷，支涛，
申请(专利权)人：北京云迹科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人