车载语音交互方法、系统及计算机可读介质技术方案

技术编号:37671344 阅读:19 留言:0更新日期:2023-05-26 04:33
本发明专利技术提供了一种车载语音交互方法、系统及计算机可读介质。其中方法包括获取显示界面信息,从所述显示界面信息中提取图片;获取用户的语音指令,将所述语音指令转换为语音文本;将所述语音文本和所述图片输入视觉语言模型,计算所述语音文本与所述图片的语义匹配度;判断所述语义匹配度是否高于预设阈值,如果是,则通过辅助模块对所述图片进行模拟点击操作。本发明专利技术实现对显示界面的图片控件的语音控制,使得车载可见即可说的功能更加完善,提高用户体验。高用户体验。高用户体验。

【技术实现步骤摘要】
车载语音交互方法、系统及计算机可读介质


[0001]本专利技术主要涉及语音
,尤其涉及一种车载语音交互方法、系统及计算机可读介质。

技术介绍

[0002]随着语音交互技术的快速发展,可见即可说正在成为主流车载智能设备的标配功能。可见即可说是指用户通过语音描述控件,通过语音实现用户手工点击动作。
[0003]目前,可见即可说功能只能对显示界面中的带有文本的控件进行语音控制,例如根据歌名或视频名称播放音频或视频。对于显示界面中的图片控件,仅能通过用户的触摸操作实现,无法通过语音指令进行控制。例如,当用户需要点击某个视频封面播放视频时,无法通过语音控制播放视频。

技术实现思路

[0004]本专利技术要解决的技术问题是提供一种车载语音交互方法、系统及计算机可读介质,解决现有的可见即可说功能不支持语音控制图片控件的问题。
[0005]为解决上述技术问题,本专利技术提供了一种车载语音交互方法,包括:获取显示界面信息,从所述显示界面信息中提取图片;获取用户的语音指令,将所述语音指令转换为语音文本;将所述语音文本和所述图片本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种车载语音交互方法,其特征在于,包括:获取显示界面信息,从所述显示界面信息中提取图片;获取用户的语音指令,将所述语音指令转换为语音文本;将所述语音文本和所述图片输入视觉语言模型,所述视觉语言模型计算所述语音文本与所述图片的语义匹配度;判断所述语义匹配度是否高于预设阈值,如果是,则通过辅助模块对所述图片进行模拟点击操作。2.如权利要求1所述的方法,其特征在于,所述视觉语言模型计算所述语音文本与所述图片的语义匹配度包括:提取所述语音文本的文本特征;判断缓存单元中是否存在所述图片对应的图片特征,如果是,则从所述缓存单元获取所述图片特征;根据所述文本特征和所述图片特征计算所述语义匹配度。3.如权利要求2所述的方法,其特征在于,还包括:如果所述缓存单元中不存在所述图片对应的图片特征,则判断数据库中是否存在所述图片对应的图片特征,如果是,则从所述数据库获取所述图片特征,如果否,则提取所述图片的所述图片特征。4.如权利要求2~3任一项所述的方法,其特征在于,根据所述文本特征和所述图片特征计算所述语义匹配度包括:将所述图片特征输入自注意力机制获得优化图片特征;将所述文本特征输入自注意力机制获得优化文本特征;将所述优化文本特征和所述优化图片特征经过交叉注意力得到所述语义匹配度。5.如权利要求1所述的方法,其特征在于,所述图片包括音频封面和视频封面。6.一种车载语音交互系统,其特征在于,包括:图片获取模块,用于获取显示界面信息,从所述显示界面信息中提取图片;文本获取模块,用于获取用户的语音指令,将所述语音指令转...

【专利技术属性】
技术研发人员:王小天蒋磊葛德发蔡勇
申请(专利权)人:合众新能源汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1