在声音数据检索系统中,使得能够容易地进行检索结果的正解/非正解的判断。在声音数据检索系统中,具备:输入装置(112),输入关键字;音素变换部(106),将输入的上述关键字变换为音素标音;声音数据搜索部(105),基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部(107),基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部(110),向用户提示来自上述声音数据搜索部(105)的检索结果及来自上述对照关键字生成部(107)的上述对照关键字。
【技术实现步骤摘要】
声音数据检索系统及用于该系统的程序
本专利技术涉及检索声音数据的系统。
技术介绍
随着近年来的存储设备的大容量化,能够储存大量的声音数据。在以往的许多声音数据库中,为了管理声音数据而赋予对声音进行录音的时刻的信息,并基于该信息检索希望的声音数据。但是,在基于时刻信息的检索中,需要预先知道讲出希望的声音的时刻,不适合于检索讲话中包含指定的关键字的声音的用途。在检索讲话中包含指定的关键字的声音的情况下,需要将声音从头到尾进行听取。所以,开发了自动地检测讲出声音数据库中的指定的关键字的时刻的技术。在作为代表性的方法之一的子字检索法中,首先通过子字识别(Sub-wordrecognition)处理将声音数据变换为子字串。这里,所谓子字,是指音素(Phoneme)或音节(Syllable)等比单词更小的单位的名称。如果输入关键字,则将该关键字的子字表现与声音数据的子字识别结果进行比较,检测子字的一致度高的部分,由此在声音数据中检测讲出该关键字的时刻(专利文献1、非专利文献1)。此外,在非专利文献2所示出的字定位(wordspotting)法中,通过将音素单位的声学模型(Acousticmodel)组合而生成该关键字的声学模型,通过进行该关键字声学模型与声音数据的对照,在声音数据中检测讲出该关键字的时刻。但是,哪种技术都受到讲话的变动(方言或说话者不同等)或噪声的影响,检索结果中包含错误,有时实际上没有讲出该关键字的时刻会出现在检索结果中。因此,用户为了将错误的检索结果去除,需要从通过检索得到的关键字的讲话时刻起将声音数据再现、通过听取来判断该关键字是否真正被讲出。还提出了用来辅助如上所述的正解/非正解判断的技术。在专利文献2中公开了为了通过听取来判断该关键字是否真正被讲出而强调该关键字的检测时刻来进行再现的技术。专利文献1:特开2002-221984号公报专利文献2:特开2005-38014号公报非专利文献1:岩田耕平等,“語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証(无词汇约束的声音文件检索方法中的新子字模型和子字声学距离的有效性的验证)”信息处理学会论文杂志,Vol.48,No.5,2007非专利文献2:河原达也,宗续敏彦,堂下修司,“ヒューリスティックな言語モデルを用いた会話音声中の単語スポッティング(使用启发式语言模型的会话声音中的单词定位)”,信学论.D-II,信息系统,II-信息处理,vol.78,no.7,pp.1013-1020,1995.在专利文献2中公开了为了通过听取来判断该关键字是否真正被讲出而强调该关键字的检测时刻来进行再现的技术。但是,在用户不能充分理解作为检索对象的声音数据的语言的状况下,经常有难以通过听取来进行如上所述的正解/非正解的判断的问题。例如,用户用“play”这样的关键字进行检索的结果,有时会检测出实际上讲出“pray”的时刻。在此情况下,不充分理解英语的日本人用户有可能将其判断为说了“play”。通过如专利文献2提出的将该关键字的检测位置强调再现的技术不能解决上述问题。
技术实现思路
本专利技术的目的是解决这样的问题,使得在声音数据检索系统中能够容易地进行检索结果的正解/非正解的判断。本专利技术为了解决上述问题,例如采用技术方案中所记载的结构。如果举出本专利技术的声音数据检索系统的一例,则是一种声音数据检索系统,具备:输入装置,输入关键字;音素变换部,将输入的上述关键字变换为音素标音;声音数据搜索部,基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部,基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部,向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。此外,如果举出本专利技术的程序的一例,则是一种用来使计算机作为声音数据检索系统发挥功能的程序,所述声音数据检索系统具备:音素变换部,将输入的上述关键字变换为音素标音;声音数据搜索部,基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部,基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部,向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。根据本专利技术,在声音数据检索系统中,基于用户输入的关键字,生成用户有可能听取混淆的对照关键字集合并向用户提示,由此能够容易地进行检索结果的正解/非正解的判断。附图说明图1是表示采用本专利技术的计算机系统的结构的模块图。图2是将本专利技术的构成要素按照处理的流程配置的图。图3是表示本专利技术的处理的流程的流程图。图4是表示生成对照关键字候选的处理的流程的流程图。图5是表示单词辞典的一例的图。图6是表示音素混淆矩阵的一例的图。图7是表示对照关键字候选的检查的处理的流程的流程图。图8是表示向用户提示信息的画面的一例的图。图9是表示音素混淆矩阵的其他例的图。图10是表示编辑距离的计算过程的一例的图。图11是表示编辑距离的计算过程的其他例的图。图12是表示用户能够理解多种语言的情况下的音素混淆矩阵的一例的图。图13是表示编辑距离计算的伪代码的图。附图标记说明101计算机102声音数据储存装置103音素混淆矩阵104单词辞典105声音数据搜索部106音素变换部107对照关键字生成部108对照关键字检查部109声音合成部110检索结果提示部111显示装置112输入装置113声音输出装置114语言信息输入部115音素混淆矩阵生成部具体实施方式以下,基于附图说明本专利技术的实施方式。[实施例1]图1表示第1实施方式,是表示采用本专利技术的计算机系统的结构的模块图。此外,图2是将图1的构成要素按照处理的流程配置的图。本实施方式的计算机系统包括计算机101、显示装置111、输入装置112及声音输出装置113。在计算机101的内部中具有声音数据储存装置102、音素混淆矩阵(phonemeconfusionmatrix)103、单词辞典104,此外,具有声音数据搜索部105、音素变换部106、对照关键字(comparisonkeyword)生成部107、对照关键字检查部108、声音合成部109、检索结果提示部110、语言信息输入部114及音素混淆矩阵生成部115。声音数据检索系统可以通过在计算机(computer)中由CPU将规定的程序装载到存储器上、并且由CPU执行装载到存储器上的规定的程序来实现。该规定的程序虽然没有图示,但只要经由读取装置从存储该程序的存储介质、或者经由通信装置从网络输入而直接装载到存储器上、或者先保存到外部存储装置中后装载到存储器上就可以。本专利技术的程序的专利技术是如此装入到计算机中并使计算机作为声音数据检索系统动作的程序。通过将本专利技术的程序装入到计算机中,构成图1及图2的模块图所示的声音数据检索系统。以下,对各构成要素的处理的流程进行记述。在图3中表示处理的流程图。[关键字输入及向音素表现的变换]如果用户从输入装置112以文本输入关键字(处理301),则首先音素变换部106将该关键字变换为音素表现(处理302)。例如,在用户作为输入而输入了关键字“p本文档来自技高网...

【技术保护点】
一种声音数据检索系统,其特征在于,具备:输入装置,输入关键字;音素变换部,将输入的上述关键字变换为音素标音;声音数据搜索部,基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部,基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;以及检索结果提示部,向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字。
【技术特征摘要】
2011.11.18 JP 2011-2524251.一种声音数据检索系统,其特征在于,具备:输入装置,输入关键字;音素变换部,将输入的上述关键字变换为音素标音;声音数据搜索部,基于音素标音的关键字,在声音数据中检索讲出该关键字的部分;对照关键字生成部,基于音素标音的关键字,生成用户有可能听取混淆的与该关键字不同的对照关键字的集合;检索结果提示部,向用户提示来自上述声音数据搜索部的检索结果及来自上述对照关键字生成部的上述对照关键字,以供用户参考上述对照关键字来判断上述检索结果是否正确;以及对照关键字检查部,将由上述对照关键字生成部生成的对照关键字与上述声音数据搜索部的检索结果进行比较,并将不需要的对照关键字除去。2.如权利要求1所述的声音数据检索系统,其特征在于,具备每个用户的音素混淆矩阵;上述对照关键字生成部基于上述音素混淆矩阵进行对照关键字生成。3.如权利要求2所述的声音数据检索系统,其特征在于,具备:语言信息输入部,输入关于用户能够理解的语言的信息;以及音素混淆矩阵生成部,基于从语言信息输入部得到的信息,生成上述音素混淆矩阵。4.如权利要求1所述的声音数据检索系统,其特征在于,上述对照关键字生成部计算被进行上述音素标音后的关键字与登录在单词辞典中的单词的音素标音之间的编辑距离,将编辑距离为阈值以下的单词作为对照关键字。5.如权利要求1所述的声音数据检索系统,其特征在于,具备声音合成部,该声音合成部将用户输入的上述关键字和由上述对照关键字生成部生成的上述对照关键字的某一方或双方进行声音合成;上述检索结果提示部向用户提示来自上述声音合成部的合成声音。6.如权利要求1所述的声音数据检索系统,其特征在于,上述对照关键字检查部将由上述对照关键字生成部生成的上述对照关键字与上述声音数据搜索部的检索结果进行比较,并将不需要的声音数据检索结果除去。7.一种声音...
【专利技术属性】
技术研发人员:神田直之,
申请(专利权)人:株式会社日立制作所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。