用于图像数据记录和再现的设备及其方法技术

技术编号:8304092 阅读:183 留言:0更新日期:2013-02-07 11:49
本发明专利技术涉及用于图像数据记录和再现的设备(1),包括:用于捕获图像的成像系统(10);耦接到成像系统(10)的信号处理器(20),用于将所捕获的图像处理为数字图像文件;耦接到信号处理器(20)的音频系统(30),用于获取适于与数字图像文件相关联的至少一个语音注释;用于识别至少一个语音注释并将语音注释转换成文本数据的语音识别单元(40),语音识别单元(40)关联到信号处理器(20),以使用文本数据生成元数据并将生成的元数据添加到数字图像文件。本发明专利技术的特征在于:语音识别单元(40)包括词的多个子集(41),每个子集(41)具有有限数目的词,以识别从相应的多种语言获取的语音注释并将其转换成文本。

【技术实现步骤摘要】
【国外来华专利技术】本专利技术涉及一种根据权利要求I的前序部分的、用于图像数据记录和再现的设备。本专利技术还涉及一种用于图像数据记录和再现的方法,特别是用于自动创建数字图像文件的元数据的方法。在最先进的现有技术中,用于图像数据记录和再现的设备和方法是众所周知的;特别地,所述设备包括适于捕获图像并将它们存储在数字介质上的数字照相机。应该注意的是在本文中,可以使用词语“设备”和/或“照相机”来指数字静态照相机、数字视频摄像机、具有集成数字照相机的移动电话等。使用最先进的现有技术已知的设备,在捕获图像的时间与打印或者以其它方式显示图像的时间之间,用户(通常也是摄影师)可能忘记或者无法获取与该图像有关的信息, 诸如该图像被捕获的时间和/或该图像被捕获的地点和/或图像中所描绘的人。一些数字照相机允许文本(诸如表示图像被捕获的日期和时间的文本)与照片相关联;该文本通常由照相机创建并以预定的格式在预定位置处叠加到图像上。所述文本仅包含少量信息,并且其向数字照相机的用户传递很少或不传递将会帮助用户区分图像的有用信息。同样的问题出现在数字照相机中使用的用于识别和追踪数字图像文件的默认文件命名方案中;实际上,所述默认文件命名方案仅采用-用于指示数字图像文件的类型的字母的组合(例如“DSC ”、“ MG ”、“ PICT ”、“DSCN” 等),-附加到上述指示符以识别不同数字图像的序号(例如“001”、“002”等),以及-附加到序号之后以识别文件的类型的文件类型扩展名(例如“.TIF”、“.JPG” O因此,使用默认文件命名方案,用户同样具有很少或不具有关于特定图像文件的内容的有用信息。实际上,用户必需打开并查看每个图像文件以确定所述图像文件是否包含期望的人物图像、地点图像等。最终,用户可以借助于计算机来编辑命名方案,但是在记录图像之后的某个时间进行这种编辑的情况下,这种可能性是几乎没用的。文献No. EP1876596涉及一种用于图像数据记录和再现的设备,所述设备包括-信号处理器,其用于捕获图像、处理所捕获的图像以生成图像数据以及生成包括所述图像数据的图像文件;-语音识别单元,其用于识别语音并且将语音转换成文本数据;以及-控制器,其用于使用所述文本数据生成元数据并且将生成的元数据添加到所述图像文件。根据文献No. EP1876596中所述的,通过使用由语音识别单元转换的文本数据生成将要被包括在图像文件中的元数据,使得能够在紧接在图像捕获之后和/或在检查图像文件时将可靠的元数据(举例来说,例如拍摄场所或图像中显示的人物)添加到图像文件。另外,基于通过使用语音识别所转换的文本数据来生成其内存储图像文件的文件夹的名称,使得能够在捕获图像时对图像文件分类。然而,已观察到即使是文献NO.EP1876596中描述的设备也存在一些缺点,这是因为该设备仅适于识别和转换一种预定语言。实际上,用于识别语音并将语音转换成文本数据的程序和软件是昂贵且规模庞大的,通常对于每种需要被识别并转换成文本的语言大约需要许多兆字节(或千兆字节);因此,在每个设备不止选择一种预定语言的情况下,在图像文件记录和再现设备中无法使用所述程序和软件。这意味着根据文献No. EP1876596的示教所实现的每个设备需要包括适于识别仅一种语言并将该语言转换成文本的程序。这必然意味着该设备不能是通用且兼容的,这是因为用户必须具有包括用于识别他自己的语言的特定程序的设备,以将所述语言转换成文本。 这也意味着设备的生产商不能够生产可以在用户讲不同语言的不同国家销售的单种产品。其结果是同一产品的型号的数量增加,以及生产成本增加。在此框架下,本专利技术的主要目的是通过提供一种用于图像数据记录和再现的设备和方法来克服上述缺点,该设备和方法允许识别多种语言并将其转换成文本。本专利技术的另一目的是提供一种以通用且兼容的方式构思的、用于图像数据记录和再现的设备和方法。本专利技术的又一目的是提供一种用于图像数据记录和再现的单个设备和方法,其能够识别多种不同语言并将其转换成文本。本专利技术通过结合意在作为本说明书的组成部分的所附权利要求中所阐述的特征的、用于图像数据记录和再现的设备和方法来实现这些目的。根据作为非限制性示例提供的以下详细描述和附图,本专利技术的其它目的、特征和优点将变得明显,其中-图I是根据本专利技术的用于图像数据记录和再现的设备(具体为数字照相机)的框图;-图2是示出了根据本专利技术的用于图像数据记录和再现的方法的第一实施方式的框图;以及-图3是示出了根据本专利技术的用于图像数据记录和再现的方法的第二实施方式的框图。在图I中,附图标记I表示根据本专利技术的用于图像数据记录和再现的设备的整体。根据本专利技术的示例性实施方式的用于图像数据记录和再现的设备I可以是数字静态照相机、数字视频摄像机、具有集成或关联的数字照相机的移动电话等。所述设备I包括-成像系统10,用于捕获图像;-耦接到所述成像系统10的信号处理器20,信号处理器20用于将所捕获的图像处理为数字图像文件;-耦接到所述信号处理器20的音频系统30,音频系统30用于获取适于与所述数字图像文件相关联的至少一个语音注释;-语音识别单元40,用于识别所述至少一个语音注释并将所述语音注释转换成文本数据,所述语音识别单元40关联到所述信号处理器20,以使用所述文本数据生成元数据并且将所生成的元数据添加到所述数字图像文件。所述成像系统10可以包括镜头/快门组件11,该镜头/快门组件11将光导向并聚焦到用于捕获被摄体的图像的传感器12上;特别地,所述传感器12可以包括一个或更多个CXD (电荷耦合器件)或者一个或更多个CMOS (互补金属氧化物半导体)。因此,所述信号处理器20控制镜头/快门组件11的操作并且处理从传感器12接收到的图像信息,以生成数字格式的包含所捕获的图像的图像文件。当图像文件包括静态图像数据时,数字图像文件可以为联合图像专家组(JPEG)的格式或者标签图像文件格式(TIFF)的格式;当图像文件包括运动图像数据时,数字图像文件可以为运动图像专家组(MPEG)的格式或最接近的现有技术已知的其它视频格式。另外,如最先进的现有技术已知的,每个图像文件包括用于存储图像数据的区域和用于存储关于图像的信息的区域。这根据国际标准执行。实际上,存在一些定义如何将 元数据添加到图像文件的实体,如-国际报业电信委员会(IPTC)信息交换模型(ΠΜ)(国际新闻电讯委员会),-用于XMP的IPTC核心模式,·XMP -可扩展元数据平台(Adobe标准),-EXIF -可交换图像文件格式,其由CIPA(照相机与影像产品协会)维护并由JEITA(日本电子信息技术产业协会)公布,-都柏林核心(都柏林核心元数据倡议-DCMI),-PLUS (图片许可通用系统)。从图I中可以看出,音频系统30优选地包括麦克风31,麦克风31用于允许用户录制短的音频或语音注释、录制用于数字视频记录的声音、输入语音命令等。所述音频系统30也可以包括扬声器32。根据本专利技术,所述语音识别单元40包括词的多个子集41,每个子集41具有有限数目的词,以识别从相应的多种语言获取的语音注释并将其转换成文本。特别地,词的每个子集41不包括特定语言的词的完整词典,而是词的每个子集41包括有限数目的词仅在确定的语言中的相关翻译,它本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:鲁伊斯·罗德里格斯·埃塞基耶尔
申请(专利权)人:拿索斯财务有限公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1