The invention discloses a method, device and system of cloud-based multi-modal dialogue for home service robots, which includes: receiving user voice information and scene image information in real time; transforming user voice information into text information, performing word segmentation and named entity recognition processing to determine the type of dialogue; preprocessing scene image information; screening preprocessing image information and processing; After that, the incremental knowledge base is added to train the model incrementally when the load rate of the conversation service is less than the threshold value, and update the conversation service model. Scene perception, user perception and emotional perception are applied to the pre-processed image information and/or the post-processed text information respectively to obtain the scene perception information, user perception information and emotional perception information. The processed text information is combined with scene perception information, user perception information and/or emotional perception information, and the interactive dialogue information between user and robot is generated through the dialogue service model.
【技术实现步骤摘要】
一种家庭服务机器人云端多模态对话方法、装置及系统
本公开属于家庭服务机器人语音对话的
,涉及一种家庭服务机器人云端多模态对话方法、装置及系统。
技术介绍
本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息,不必然构成在先技术。近年来,人口老龄化等问题日益凸显,社会的迫切需求及人工智能和机器人技术的快速发展,极大促进了服务机器人的发展。语音对话技术为家庭服务机器人提供了最人性化的交互方式。然而,目前的人机语音交互中,机器人对场景信息和交互对象信息无感知,经常答非所问,无法生成让用户满意的回答,非常不人性化。传统家庭服务机器人存在以下不足:(1)传统的家庭服务机器人对话系统单一的使用用户的语音交互信息,对机器人场景信息无感知,存在由于缺乏场景信息造成的对话策略偏差问题,生成的对话无法对应用户交互内容,人机交互体验差。(2)传统的家庭服务机器人对话系统对于不同的用户相同的语音输入信息,生成类似的回答,无法生成根据不同用户情感、兴趣等信息生成个性化回答。(3)传统的基于云端的家庭服务人对话系统对于海量的用户数据,对于模型更新训练方式造成了大量时间和计算能力的浪费,资 ...
【技术保护点】
1.一种家庭服务机器人云端多模态对话方法,其特征在于,该方法包括:实时接收用户语音信息和场景图像信息;调用语音识别服务将用户语音信息转化为文字信息,对文字信息进行分词和命名实体识别处理,确定对话类型;将场景图像信息进行预处理,得到预处理图像信息;根据预处理图像信息和处理后的文字信息进行筛选,加入增量知识库,在对话服务负载率小于阈值时进行模型增量训练,动态更新根据知识库训练的对话服务模型;对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知,获取场景感知信息、用户感知信息和情感感知信息;根据不同的对话类型,将处理后的文字信息结合场景感知信息、用户感知信息 ...
【技术特征摘要】
1.一种家庭服务机器人云端多模态对话方法,其特征在于,该方法包括:实时接收用户语音信息和场景图像信息;调用语音识别服务将用户语音信息转化为文字信息,对文字信息进行分词和命名实体识别处理,确定对话类型;将场景图像信息进行预处理,得到预处理图像信息;根据预处理图像信息和处理后的文字信息进行筛选,加入增量知识库,在对话服务负载率小于阈值时进行模型增量训练,动态更新根据知识库训练的对话服务模型;对预处理图像信息和/或处理后的文字信息分别进行场景感知、用户感知和情感感知,获取场景感知信息、用户感知信息和情感感知信息;根据不同的对话类型,将处理后的文字信息结合场景感知信息、用户感知信息和/或情感感知信息,通过对话服务模型,生成用户和机器人交互的对话信息。2.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,在该方法中,所述场景感知为通过场景感知器进行场景描述、场景分类、目标检测和行为识别得到场景感知信息,所述用户感知为通过用户感知器进行行为画像和兴趣画像得到用户感知信息,所述情感感知为通过情感感知器进行文字情感识别、人脸表情识别和声波情感识别得到情感感知信息。3.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,在该方法中,所述对话类型包括闲聊型对话和任务型对话;在任务型对话中,将文字信息分词后的词语转化为分布式词向量与场景感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;将文字信息分词后的词语转化为分布式词向量与用户感知信息进行余弦距离匹配,根据匹配结果与其对应的预设场景阈值筛选出相关度高的场景感知信息,用于生成对话信息;在闲聊型对话中,将预处理后的场景图像信息、用户语音信息和/或处理后的文字信息通过情感感知器获取情感感知信息,并将情感感知信息分类,根据不同情感感知信息类型,生成其对应的不同的对话信息。4.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,该方法还包括主动生成对话,具体步骤包括:实时接收场景图像信息;将场景图像信息进行预处理,对预处理后的场景图像信息分别通过场景感知器进行行为识别和通过情感感知器进行人脸表情识别,结合用户感知器中的行为画像,监测用户情绪或行为;当情绪异常或行为异常时,根据异常情绪类别和异常行为类别,主动生成相对应的对话信息。5.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,该方法还包括:将一次对话产生的用户语音信息、场景图像信息和生成的对话信息保存为历史交互信息,根据历时交互信息通过用户感知器进行行为画像和兴趣画像,并加入时间轴信息,得到基于时序的动态历史用户感知信息,在生成用户和机器人交互的对话信息时,调用该历史用户感知信息。6.如权利要求1所述的一种家庭服务机器人云端多模态对话方法,其特征在于,在该方法中,筛选预处理图像信息加入增量知识库的具体步骤包括:对预处理图像信息依次进行清晰度、对比度和亮度计算,删除清晰度、对比度和亮度小于其对应预设阈值的图像;将保留的图像和知识库中的图像进行图像结构相似度计算,删除大于预设相似度阈值的图像;将保留的图像进行目标...
【专利技术属性】
技术研发人员:周风余,王淑倩,尹磊,刘进,万方,郭仁和,沈冬冬,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。