一种基于语音输入的图像信息提取分析方法及装置制造方法及图纸

技术编号：8626154 阅读：176 留言：0更新日期：2013-04-25 23:17

本发明专利技术提供了一种基于语音输入的图像信息提取分析方法及装置，其中，方法包括：预先建立像信息提取场景库；S1、根据用户输入的语音，获取用户的信息提取意图；S2、根据所述用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景；S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。本发明专利技术能够综合各种不同类别的图像信息提取软件所具有的功能，同时，能够根据用户输入的语音，智能地提取目标图像中的对应信息并进行分析处理，显著减少了用户的交互负担。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音输入的图像信息提取分析方法及装置
本专利技术涉及图像信息提取技术，尤其涉及一种基于语音输入的图像信息提取分析方法及装置。
技术介绍
随着图像识别技术以及移动互联网的广泛应用，大量的图像信息提取软件应运而生，能够让用户随时随地查询指定图像中的相关信息。现有的图像信息提取软件通常都是针对不同类别的用户需求而设计的，例如，文字信息提取类的应用软件可以提取并识别图像中的文字，特定商品元素提取类的应用软件可以提取并识别图像中商品的二维码或者商品的Logo，脸部识别类的应用软件可以识别图像中人脸。然而，诸如此类的应用软件只能实现某一类别的图像信息提取，同时需要基于用户的明确操作指令，随着应用种类的增多，用户的交互负担也越来越大，为多种图像信息提取应用提供便捷的一站式交互服务是一个亟待有效解决的问题。
技术实现思路
有鉴于此，本专利技术提供了一种基于语音输入的图像信息提取分析方法及装置，能够基于用户输入的语音，自动提取目标图像中的对应信息并处理。具体技术方案如下一种基于语音输入的图像信息提取分析方法，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该方法包括S1、根据用户输入的语音，获取用户的信息提取意图；S2、根据所述用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景；S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。根据本专利技术一优选实施例，所述获取用户的信息提取意图具体包括将所述用户输入的语音通过语音识别转换为文字信息，并将该文字信息或者...
一种基于语音输入的图像信息提取分析方法及装置

【技术保护点】
一种基于语音输入的图像信息提取分析方法，其特征在于，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该方法包括：S1、根据用户输入的语音，获取用户的信息提取意图；S2、根据所述用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景；S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。

【技术特征摘要】
1.一种基于语音输入的图像信息提取分析方法，其特征在于，图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签，该方法包括 51、根据用户输入的语音，获取用户的信息提取意图； 52、根据所述用户的信息提取意图查询图像信息提取场景库，与各文字描述标签进行匹配，并获取匹配得到的文字描述标签对应的图像信息提取场景； 53、根据所获取的图像信息提取场景对目标图像进行目标对象识别，将识别结果返回给用户。2.根据权利要求1所述的方法，其特征在于，所述获取用户的信息提取意图具体包括将所述用户输入的语音通过语音识别转换为文字信息，并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。3.根据权利要求1所述的方法，其特征在于，所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值，获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景；或者，依据场景特征分类模块对目标图像进行特征提取以及分类后，得到的目标图像与各图像信息提取场景的匹配度，确定各图像信息提取场景的特征权重值，利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值，获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。4.根据权利要求1或3所述的方法，其特征在于，在所述步骤S2中进一步包括将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户；如果获取到用户的确认信息，则继续执行所述步骤S3 ;如果获取到用户的舍弃信息，则不继续执行所述步骤S3，等待用户重新输入语音后执行步骤SI ;如果获取到用户选择其中的一个或多个图像信息提取场景，则根据用户的选择继续执行所述步骤S3。5.根据权利要求1所述的方法，其特征在于，所述步骤S3进一步包括抓取所述识别结果对应的扩展知识信息，并将所述扩展知识信息返回给用户。6.一种基于语音输入的图像...

【专利技术属性】
技术研发人员：韩钧宇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人