语音交互相关系统、方法、装置及设备制造方法及图纸

技术编号：31723331 阅读：28 留言：0更新日期：2022-01-05 15:47

本申请公开了语音交互相关系统、方法、装置及设备。其中，语音交互系统终端设备采集语音数据，将语音数据发送至服务端；服务端构建实体知识库，通过语音实体识别模型和实体知识库，确定语音数据中的实体信息；根据实体信息，执行语音交互处理。采用这种处理方式，使得引入实体知识图谱信息，直接比对语音中是否有知识图谱中的实体发音，实现从语音信号中进行语义理解和实体识别，这样更接近于人类理解语音的过程；因此，可以有效提升语音实体识别的准确率，从而提升语音交互准确率。从而提升语音交互准确率。从而提升语音交互准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互相关系统、方法、装置及设备

[0001]本申请涉及语音识别
，具体涉及多媒体节目点播系统、方法和装置，点餐系统、方法和装置，通讯连接建立系统、方法和装置，语音交互系统、方法和装置，语音实体识别模型构建方法和装置，实体知识库构建方法和装置，电视节目点播方法和装置，会议记录方法和装置，智能音箱，智能电视，点餐机，用户设备，以及电子设备。

技术介绍

[0002]随着自动语音识别(Automatic Speech Recognition，ASR)技术的不断发展，智能语音助手得到了广泛引用，如智能手机向用户提供的智能语音助手服务、智能音箱等等。
[0003]人工智能的核心功能是语音助手的发力点，使语音助手更好地理解用户指令，特别是用户指令中具有特定意义的实体，主要包括人名、地名、机构名、歌曲名、电影名、电话号码、专有名词等。以智能音箱为例，用户可使用音箱提供的点歌服务，如用户对音箱说：我想听雷雨心的记念”，其中“雷雨心”和“记念”是具有特定意义的实体，是点歌指令的处理对象，如果不能正确识别这两个实体，就会导致无法...

【技术保护点】

【技术特征摘要】
1.一种多媒体节目点播系统，其特征在于，包括：智能音箱，用于采集多媒体节目点播语音数据，将所述语音数据发送至服务端；根据服务端的多媒体节目播放处理结果，播放多媒体节目；服务端，用于构建多媒体节目知识库；通过语音实体识别模型和所述知识库，确定所述语音数据中的多媒体节目信息；根据所述多媒体节目信息，执行多媒体节目播放处理。2.一种点餐系统，其特征在于，包括：点餐设备，用于采集点餐语音数据，将所述语音数据发送至服务端；服务端，用于构建餐品知识库；通过语音实体识别模型和所述知识库，确定所述语音数据中的餐品信息；根据所述餐品信息，执行备餐处理。3.一种通讯连接建立系统，其特征在于，包括：用户设备，用于采集通讯指令语音数据，将所述语音数据发送至服务端；服务端，用于构建通讯用户知识库；通过语音实体识别模型和所述知识库，确定所述语音数据中的通讯用户信息；根据所述通讯用户信息，执行通讯连接建立处理。4.一种语音交互系统，其特征在于，包括：终端设备，用于采集语音数据，将所述语音数据发送至服务端；服务端，用于构建实体知识库；通过语音实体识别模型和所述实体知识库，确定所述语音数据中的实体信息；根据所述实体信息，执行语音交互处理。5.一种语音交互方法，其特征在于，包括：构建实体知识库；通过语音实体识别模型和所述实体知识库，确定目标语音数据中的实体信息；根据所述实体信息，执行语音交互处理。6.根据权利要求5所述的方法，其特征在于，所述通过语音实体识别模型和所述实体知识库，确定目标语音数据中的实体信息，包括：通过所述语音实体识别模型包括的音频编码模型，确定所述语音数据的音频特征数据；通过所述语音实体识别模型包括的实体解码模型和所述实体知识库，根据所述音频特征数据，确定所述实体信息。7.根据权利要求6所述的方法，其特征在于，所述通过所述语音实体识别模型包括的实体解码模型和所述实体知识库，根据所述音频特征数据，确定所述实体信息，包括：通过所述实体解码模型包括的实体候选发音确定模块，根据所述音频特征数据，确定所述实体信息的至少一个候选发音；通过所述实体解码模型包括的实体发音确定模块，根据所述实体知识库，从所述至少一个候选发音中，确定所述实体信息的发音；根据所述实体信息的发音，确定所述实体信息。8.根据权利要求7所述的方法，其特征在于，所述根据所述实体知识库，从所述至少一个候选发音中，确定所述实体信息的发音，包括：
确定所述实体知识库中的实体的发音与所述候选发音的相似度；根据所述相似度，确定所述实体信息的发音。9.根据权利要求7所述的方法，其特征在于，所述实体知识库包括：多媒体节目点播领域的节目实体知识库；所述节目实体知识库包括：同音不同字的节目相关实体，用户实体，节目相关实体与用户实体间的实体关系；所述构建实体知识库，包括：根据用户历史播放信息，确定所述用户实体，并构建所述实体关系；所述根据所述实体信息的发音，确定所述实体信息，包括：根据所述实体信息的发音，确定候选实体；根据用户信息和所述实体关系，从所述候选实体中确定所述实体信息。10.根据权利要求7所述的方法，其特征在于，还包括：从训练数据中学习得到所述语音实体识别模型；其中，所述训练数据包括：音频数据和实体标注信息。11.根据权利要求6所述的方法，其特征在于，所述通过语音实体识别模型和所述实体知识库，确定目标语音数据中的实体信息，包括：通过所述语音实体识别模型包括的音频编码模型，确定所述语音数据的音频特征数据；通过所述语音实体识别模型包括的实体编码模型，确定所述实体知识库中实体的发音特征数据；通过所述语音实体识别模型包括的实体解码模型，根据所述音频特征数据和实体发音特征数据，确定所述实体信息。12.根据权利要求11所述的方法，其特征在于，所述通过所述语音实体识别模型包括的实体解码模型，根据所述音频特征数据和实体发音特征数据，确定所述实体信息，包括：根据所述音频特征数据和实体发音特征数据，确定所述语音数据中的实体与所述实体知识库中的实体的发音相似度；根据所述发音相似度，确定所述实体信息。13.根据权利要求12所述的方法，其特征在于，所述实体知识库包括：多媒体节目点播领域的节目实体...

【专利技术属性】
技术研发人员：曹涌，聂再清，周晓欢，王鹏伟，谢静辉，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人