【技术实现步骤摘要】
一种多模态语义完整性识别方法、装置及电子设备
本专利技术涉及语音智能
,具体而言,涉及一种多模态语义完整性识别方法、装置、电子设备及计算机可读介质。
技术介绍
随着人工智能技术的发展,语音机器人的应用也越来越广泛。语音机器人基于语音识别、语音合成、自然语言理解等技术,能够为企业在多种实际应用场景下,赋予产品“能听、会说、懂你”式的智能人机交互体验。目前,语音机器人已广泛应用于电话销售、智能问答、智能质检、实时演讲字幕、访谈录音等场景。语音机器人首先对用户的语音进行自然语音理解来识别用户意图,再根据用户意图通过自然语音生成技术生成对用户的问答语音,从而完成与用户的语音问答。在自然语音理解过程中语音机器人将用户的语音通过语音识别(AutomaticSpeechRecognition,ASR)技术转化为文字,再通过自然语言理解(NaturalLanguageUnderstanding,NLU)技术识别用户意图。其中,NLU过程中主要采用数据量大,参数比较多的机器学习模型,比如,循环神经网络模型(RecurrentNe ...
【技术保护点】
1.一种多模态语义完整性识别方法,其特征在于,所述方法包括:/n创建多模态语义完整性模型,其中,所述多模态语义完整性模型包括第一模型和第二模型,所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征,所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性;/n将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中,得到语义完整性识别结果;/n根据所述语义完整性识别结果调整当前对话的用户语义。/n
【技术特征摘要】
1.一种多模态语义完整性识别方法,其特征在于,所述方法包括:
创建多模态语义完整性模型,其中,所述多模态语义完整性模型包括第一模型和第二模型,所述第一模型用于分别提取音频数据和文本数据中的音频向量特征和文本向量特征,所述第二模型用于结合音频向量特征、文本向量特征和对话特征识别语义完整性;
将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中,得到语义完整性识别结果;
根据所述语义完整性识别结果调整当前对话的用户语义。
2.根据权利要求1所述的方法,其特征在于,所述对话数据包括当前用户语音是用户第几轮对话和/或当前用户语音的时长。
3.根据权利要求2所述的方法,其特征在于,所述第一模型包括Word2Vec模型和VGG模型。
4.根据权利要求2所述的方法,其特征在于,所述第二模型为VAD模型。
5.根据权利要求2所述的方法,其特征在于,所述将当前用户的文本数据、音频数据和对话数据分别输入所述多模态语义完整性模型中之前,所述方法还包括:
采集当前对话的用户音频数据和对话数据;
将所述用户音频数据转换为文本数据。
6.根据权利要求2所述的方法,其特征在于,所述根据所述语义完整性识别结果调整...
【专利技术属性】
技术研发人员:张常睿,李蒙,
申请(专利权)人:北京淇瑀信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。