一种基于语音输入的图像信息提取分析方法及装置制造方法及图纸

技术编号:8626154 阅读:176 留言:0更新日期:2013-04-25 23:17
本发明专利技术提供了一种基于语音输入的图像信息提取分析方法及装置,其中,方法包括:预先建立像信息提取场景库;S1、根据用户输入的语音,获取用户的信息提取意图;S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。本发明专利技术能够综合各种不同类别的图像信息提取软件所具有的功能,同时,能够根据用户输入的语音,智能地提取目标图像中的对应信息并进行分析处理,显著减少了用户的交互负担。

【技术实现步骤摘要】
一种基于语音输入的图像信息提取分析方法及装置
本专利技术涉及图像信息提取技术,尤其涉及一种基于语音输入的图像信息提取分析方法及装置。
技术介绍
随着图像识别技术以及移动互联网的广泛应用,大量的图像信息提取软件应运而生,能够让用户随时随地查询指定图像中的相关信息。现有的图像信息提取软件通常都是针对不同类别的用户需求而设计的,例如,文字信息提取类的应用软件可以提取并识别图像中的文字,特定商品元素提取类的应用软件可以提取并识别图像中商品的二维码或者商品的Logo,脸部识别类的应用软件可以识别图像中人脸。然而,诸如此类的应用软件只能实现某一类别的图像信息提取,同时需要基于用户的明确操作指令,随着应用种类的增多,用户的交互负担也越来越大,为多种图像信息提取应用提供便捷的一站式交互服务是一个亟待有效解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于语音输入的图像信息提取分析方法及装置,能够基于用户输入的语音,自动提取目标图像中的对应信息并处理。具体技术方案如下一种基于语音输入的图像信息提取分析方法,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该方法包括S1、根据用户输入的语音,获取用户的信息提取意图;S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。根据本专利技术一优选实施例,所述获取用户的信息提取意图具体包括将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。根据本专利技术一优选实施例,所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像息提取场景;或者,依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。根据本专利技术一优选实施例,在所述步骤S2中进一步包括将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户;如果获取到用户的确认信息,则继续执行所述步骤S3 ;如果获取到用户的舍弃信息,则不继续执行所述步骤S3,等待用户重新输入语音后执行步骤SI ;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择继续执行所述步骤S3。根据本专利技术一优选实施例,所述步骤S3进一步包括抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。一种基于语音输入的图像信息提取分析装置,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该装置包括预处理单元,用于根据用户输入的语音,获取用户的信息提取意图;匹配单元,用于根据所述预处理单元获取的用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;分析单元,用于根据所述匹配单元获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。根据本专利技术一优选实施例,所述预处理单元获取用户的信息提取意图时,具体执行将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。根据本专利技术一优选实施例,所述匹配单元获取匹配得到的文字描述标签对应的图像信息提取场景时,具体执行依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像息提取场景;或者,依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。根据本专利技术一优选实施例,所述匹配单元进一步执行将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户;如果获取到用户的确认信息,则触发所述分析单元;如果获取到用户的舍弃信息,则不触发所述分析单元,等待用户重新输入语音后触发所述预处理单元;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择触发所述分析单元。根据本专利技术一优选实施例,所述分析单元进一步执行抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。由以上技术方案可以看出,本专利技术通过预先建立图像信息提取场景库,根据用户输入的语音,获取匹配的图像信息提取场景,并利用所获取的图像信息提取场景提取目标图像中的对应信息并进行对应的分析处理。本专利技术能够综合各种不同类别的图像信息提取软件所具有的功能,同时,能够根据用户输入的语音,智能地提取目标图像中的对应信息并进行分析处理,显著减少了用户的交互负担。附图说明图1为本专利技术实施例一所提供的基于语音输入的图像信息提取分析方法流程图;图2为本专利技术实施例一所提供的根据文字描述标签和场景特征分类模块匹配图像信息提取场景的方法示意图;图3为本专利技术实施例二所提供的基于语音输入的图像信息提取分析装置示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术能够识别用户输入的语音,并进一步分析出用户的意图,从而在目标图像中提取对应的信息并处理。为了实现这一目的,需要先建立图像信息提取场景库来保存图像信息提取场景,不同的图像信息提取场景可以实现对于目标图像的不同类别的信息提取以及相应的分析处理,例如,对应于星座识别的图像信息提取场景能够提取目标图像中含有的星座图像并识别出是哪一个星座。同时,可以设定不同的文字描述标签来对应不同的图像信息提取场景,文字描述标签用于表征其对应的图像信息提取场景所执行的操作及能够实现的功能,例如,某一图像信息提取场景可以识别目标图像中商品的Logo,则其文字描述标签可以设定为“商标,Logo,识别”。为了能够根据用户输入的语音,通过文字描述标签获取匹配度最高的图像信息提取场景,可以根据实际需求以及用户的输入习惯来设定每个图像信息提取场景的文字描述标签。需要说明的是,对于Logo识别、人脸识别等图像信息提取场景,还需要预先建立对应Logo数据库、人脸数据库等来实现相应的识别功能,这一部分为现有技术,在此不再赘述。更进一步地,还可以为每一个图像信息提取场景设定一个场景特征分类模块来与其对应,场景特征分类模块 用于提取目标图像的特征,同时基于所获取的目标图像的特征和经过训练的预设分类器获得目标图像与当前图像信息提取场景匹配的可能性,可以将该可能性以数值化的形式表示后,作为目标图像与图像信息提取场景的匹配度,匹配度越高,表示目标图像越有可能与当前图像信息提取场景匹配。场景特征分类模块可以使用SIFT本文档来自技高网...
一种基于语音输入的图像信息提取分析方法及装置

【技术保护点】
一种基于语音输入的图像信息提取分析方法,其特征在于,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该方法包括:S1、根据用户输入的语音,获取用户的信息提取意图;S2、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景;S3、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。

【技术特征摘要】
1.一种基于语音输入的图像信息提取分析方法,其特征在于,图像信息提取场景库中的图像信息提取场景设置有对应的文字描述标签,该方法包括 51、根据用户输入的语音,获取用户的信息提取意图; 52、根据所述用户的信息提取意图查询图像信息提取场景库,与各文字描述标签进行匹配,并获取匹配得到的文字描述标签对应的图像信息提取场景; 53、根据所获取的图像信息提取场景对目标图像进行目标对象识别,将识别结果返回给用户。2.根据权利要求1所述的方法,其特征在于,所述获取用户的信息提取意图具体包括将所述用户输入的语音通过语音识别转换为文字信息,并将该文字信息或者从该文字信息中提取的关键词组作为用户的信息提取意图。3.根据权利要求1所述的方法,其特征在于,所述步骤S2中获取匹配得到的文字描述标签对应的图像信息提取场景具体包括 依据所述用户的信息提取意图与文字描述标签的匹配度确定各文字描述标签对应的图像信息提取场景的场景权重值,获取场景权重值高于预设场景阈值的一个或多个图像信息提取场景;或者, 依据场景特征分类模块对目标图像进行特征提取以及分类后,得到的目标图像与各图像信息提取场景的匹配度,确定各图像信息提取场景的特征权重值,利用各图像信息提取场景的特征权重值和场景权重值得到各图像信息提取场景的综合权重值,获取综合权重值高于预设综合阈值的一个或多个图像信息提取场景。4.根据权利要求1或3所述的方法,其特征在于,在所述步骤S2中进一步包括将获取匹配得到的文字描述标签对应的图像信息提取场景反馈给用户; 如果获取到用户的确认信息,则继续执行所述步骤S3 ;如果获取到用户的舍弃信息,则不继续执行所述步骤S3,等待用户重新输入语音后执行步骤SI ;如果获取到用户选择其中的一个或多个图像信息提取场景,则根据用户的选择继续执行所述步骤S3。5.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括抓取所述识别结果对应的扩展知识信息,并将所述扩展知识信息返回给用户。6.一种基于语音输入的图像...

【专利技术属性】
技术研发人员:韩钧宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1