语音交互系统、相关方法、装置及设备制造方法及图纸

技术编号：31454701 阅读：22 留言：0更新日期：2021-12-18 11:20

本申请公开了语音交互系统、相关方法、装置及设备。其中，所述系统通过智能音箱采集目标用户的语音数据，将所述语音数据发送至服务端；服务端生成各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库；通过端到端的语音识别模型和所述目标用户的所述语言知识库，确定与所述语音数据对应的文本序列；根据所述文本序列，执行语音交互处理。采用这种处理方式，使得能够根据实时更新的知识库进行语音识别，因此可以有效兼顾较高的语音识别实时性和准确度。实时性和准确度。实时性和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互系统、相关方法、装置及设备

[0001]本申请涉及数据处理
，具体涉及语音交互系统、方法和装置，电视节目播放方法和装置，会议记录方法和装置，语音识别模型构建方法和装置，智能音箱，智能电视，以及电子设备。

技术介绍

[0002]智能音箱，是一个音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。
[0003]用户与智能音箱之间主要通过语音方式进行交互。用户向智能音箱下达语音指令，智能音箱通过自动语音识别(Automatic Speech Recognition，ASR)技术识别用户指令，并执行指令。在音箱类对话式交互系统中，存在千千万万的实体词，一方面长尾实体太多(如有声书名《宦妃权倾天下》)，语言模型很难全部记忆，并且常常存在反语言模型的情况(如音乐歌名“情人结”，用户通讯录“梓豪vs子豪”),这类实体对ASR来说是个挑战，包括：a)语言模型训练样本有限，很难保证充分的覆盖；b)创...

【技术保护点】

【技术特征摘要】
1.一种语音交互系统，其特征在于，包括：智能音箱，用于采集目标用户的语音数据，将所述语音数据发送至服务端；服务端，用于构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库；通过端到端的语音识别模型和所述目标用户的所述语言知识库，确定与所述语音数据对应的文本序列；根据所述文本序列，执行语音交互处理。2.一种语音交互方法，其特征在于，包括：构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库；针对智能音箱发送的目标用户的语音数据，通过端到端的语音识别模型和所述目标用户的所述语言知识库，确定与所述语音数据对应的文本序列；根据所述文本序列，执行语音交互处理。3.根据权利要求2所述的方法，其特征在于，所述通过端到端的语音识别模型和所述目标用户的所述语言知识库，确定与所述语音数据对应的文本序列，包括：通过所述语音识别模型包括的语言模型，确定与所述语音数据对应的第一文本特征；根据所述语言知识库和所述第一文本特征，确定与所述语音数据对应的第二文本特征；至少根据第二文本特征，确定所述文本序列。4.根据权利要求3所述的方法，其特征在于，所述根据所述语言知识库和所述第一文本特征，确定与所述语音数据对应的第二文本特征，包括：通过所述语音识别模型包括的指示器评分模型，根据所述语言知识库和所述第一文本特征，确定与所述语音数据对应的第二文本特征。5.根据权利要求4所述的方法，其特征在于，通过所述指示器评分模型，确定与所述第一文本特征对应的词与各个语言知识的相关度；至少根据与所述相关度大于相关度阈值的词相关的语言知识，确定第二文本特征。6.根据权利要求3所述的方法，其特征在于，所述方法还包括：通过所述语音识别模型包括的语言知识编码器，对语言知识执行编码处理；将语言知识的编码数据存储至所述语音识别模型包括的语言知识存储模块；所述根据所述语言知识库和所述第一文本特征，确定与所述语音数据对应的第二文本特征，包括：根据所述语言知识存储模块存储的所述编码数据和所述第一文本特征，确定第二文本特征。7.根据权利要求2所述的方法，其特征在于，还包括：从训练数据集中学习得到所述语音识别模型；所述训练数据包括：语音数据、个性化语言知识库、文本序列标注信息。8.根据权利要求7所述的方法，其特征在于，所述训练数据中的个性化语言知识库，采用如下方式确定：根据多个训练数据的文本序列标注信息，构建所述个性化语言知识库。
9.根据权利要求2所述的方法，其特征在于，所述个性化语言知识库包括：长尾实体词，反语言模型的实体词，同音不同字的实体词，上下文中的实体词。10.根据权利要求2所述的方法，其特征在于，所述音箱服务领域包括：打电话服务领域；所述打电话服务领域的语言知识包括：用户通讯录中的人名；所述构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库，包括：接收与所述用户对应的智能音箱发送的用户通讯录信息；将用户通讯录中的人名作为所述用户的个性化语言知识。11.根据权利要求2所述的方法，其特征在于，所述音箱服务领域包括：问答服务领域；所述问答服务领域的语言知识包括：上下文中的文本片段；所述构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库，包括：确定上下文文本序列；将所述上下文文本序列中的文本片段作为所述用户的个性化语言知识。12.根据权利要求2所述的方法，其特征在于，所述音箱服务领域包括：多媒体播放服务领域；所述多媒体播放服务领域的语言知识包括：曲目名；所述构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库，包括：确定用户的历史播放节目名；将所述历史播放节目名作为所述用户的个性化语言知识。13.根据权利要求2所述的方法，其特征在于，所述构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库，采用如下方式的至少一个：根据所述用户的购物数据，确定所述用户的个性化语言知识；根据所述用户输入的文本信息，确定所述用户的个性化语言知识。14.根据权利要求2所述的方法，其特征在于，还包括：根据交互语音数据，更新所述用户的语言知识库。15.一种语音交互方法，其特征在于，包括：采集目标用户的语音数据；将所述语音数据发送至服务端，以便于服务端生成各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库；通过端到端的语音识别模型和所述目标用户的所述语言知识库，确定与所述语音数据对应的文本序列；根据所述文本序列，执行语音交互处理。16.一种语音交互方法，其特征在于，包括：确定用户的包括至少一个音箱服务领域语言知识的个性化语言知识库；针对采集到的所述用户的语音数据，通过端到端的语音识别模型、和所述语言知识库，确定与所述语音数据对应的文本序列；
根据所述文本序列，执行语音交互处理。17.一种电视节目播放方法，其特征在于，包括：确定用户的个性化节目播放语言知识库；针对采集到的所述用户的节目播放语音指令数据，通过端到端的语音识别模型和所述语言知识库，确定与所述语音指令数据对应的目标节目名；根据所述目标节目名，播放目标节目对象。18.根据权利要求17所述的方法，其特征在于，还包括：将所述用户的历史播放节目对象的节目名、演员名和/或导演名作为所述用户的个性化节目播放语言知识。19.根据权利要求17所述的方法，其特征在于，所述根据所述目标节目名，播放目标节目对象，包括：根据节目表，确定与所述目标节目名对应的电视频道和播放时间；根据所述播放时间和所述电视频道，确定目标节目对象；播放所述目标节目对象。20.根据权利要求19所述的方法，其特征在于，所述根据所述播放时间和所述电视频道，确定目标节目对象，包括：显示与所述目标节目名对应的至少一个电视频道在多个时间播放的多个节目对象；将用户指定的节目对象作为目标节目对象。21.根据权利要求19所述的方法，其特征在于，还包括：若所述节目表不包括所述目标节目名，则确定与所述目标节目名相关的节目名；显示相关节目名；若用户指定播放相关节目对象，则播放相关节目对象。22.一种电视节目播放方法，其特征在于，包括：确定与智能电视采集到的用户的节目播放语音指令数据对应的目标节目名；根据节目表，确定与所述目标节目名对应的目标节目对象；播放所述目标节目对象。23.根据权利要求22所述的方法，其特征在于，所述根据节目表，确定与所述目标节目名对应的目标节目对象，包括：根据历史节目表，确定与所述目标节目名对应的历史目标节目对象；根据当前节目表，确定与所述目标节目名对应的当前目标节目对象。24.一种电视节目播放方法，其特征在于，包括：服务端针对智能电视采集的用户的节目播放语音指令数据，确定与语音指令数据对应的目标节目名；根据节目表，确定与所述目标节目名对应的目标节目对象；通过所述智能电视播放所述目标节目对象。25.一种电视节目播放方法，其特征在于，包括：智能电视采集用户的节目播放语音指令数据；将所述语音指令数据发送至服务端，以便于服务端确定与语音指令数据对应的目标节目名；根据节目表，确定与所述目标节目名对应的目标节目对象；
播放所述目标节目对象。26.一种会议记录方法，其特征在于，包括：构建会议领域的语言知识库；采集会议语音数据；通过端到端的语音识别模型和所述会议领域的语言知识库，确定与所述会议语音数据对应的文本序列，形成会议记录。27.根据权利要求26所述的方法，其特征在于，还包括：确定与会议语音数据对应的会议领域。28.一种会议记录方法，其特征在于，包括：构建各个领域的语言知识库；针对终端设备发送的目标会议的语音数据，确定目标会议所属的领域；通过端到端的语音识别模型和目标会议领域的语言知识库，确定与所述语音数据对应的文本序列，形成目标会议的会议记录。29.一种会议记录方法，其特征在于，包括：采集目标会议的语音数据；将所述语音数据发送至服务端，以便于服务端确定目标会议所属领域；通过端到端的语音识别模型和目标会议领域的语言知识库，确定与所述语音数据对应的文本序列，形成目标会议的会议记录。30.一种语音识别模型构建方法，其特征在于，包括：确定训练数据集；所述训练数据包括：语音数据、个性化语言知识库、文本序列标注信息；构建端到端的语音识别模型的网络结构；从训练数据集中学习得到所述语音识别模型。31.根据权利要求30所述的方法，其特征在于，所述模型包括：声音编码器、解码器、语言知识编码器、语言模型、特征融合模块和分类器。32.根据权利要求30所述的方法，其特征在于，所述模型包括：声音编码器、语言模型、语言知识编码器、指示器评分模型、特征融合模块和分类器。33.一种语音识别方法，其特征在于，包括：构建用户的包括至少一个领域语言知识的个性化语言知识库；针对终端设备采集的用户语音数据，通过端到端的语音识别模型和所述语言知识库，确定与所述语音数据对应的文本序列。34.一种语音交互装置，其特征在于，包括：知识库构建单元，用于构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识库；语音识别单元，用于针对智能音箱发送的目标用户的语音数据，通过端到端的语音识别模型和所述目标用户的所述语言知识库，确定与所述语音数据对应的文本序列；指令处理单元，用于根据所述文本序列，执行语音交互处理。
35.一种电子设备，其特征在于，包括：处理器和存储器；所述存储器，用于存储实现语音交互方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：构建各个用户的包括至少一个音箱服务领域语言知识的个性化语言知识...

【专利技术属性】
技术研发人员：郑梓豪，胡于响，姜飞俊，张帆，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人