数字文件关键特征的自动撷取方法技术

技术编号:2882606 阅读:204 留言:0更新日期:2012-04-11 18:40
一种数字文件关键特征的自动撷取方法。将此数字文件转换为条列数据结构,该结构包括至少一个条列元素。然后设定一个组合条列区为空虚状态,并依序取出条列数据结构中的这些条列元素。依照不同的情形,将这些条列元素重新组合后放入组合条列区或最后条列区中,或是直接舍弃不用。之后将组合条列区转换为条列数据结构。重复进行上述步骤,直到到达停止条件。最后将最后条列区中的条列元素依照显示条件显示,以供关键特征检索之用。(*该技术在2020年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种数字文件自动检索方法,特别涉及一种。目前因特网的通达程度与普及速度,使数据成长更为快速,各种检索系统的使用情况更为频繁。新一代信息检索系统,尤其是允许全文式(full-text)或内容为主(content-based)的查询系统,必须能够运用更有效率的自动化技术,以提供简易有效的检索服务。然而此类自动化技术,如自动索引、索引典自动建立、自动摘要、自动分类、相关回馈、自动过滤、近似检索等,大部分都必须先进行文件关键特征撷取的动作,依此结果再进行其他的处理。因此,无论是书目性数据、数字全文数据、经OCR(Optical CharacterRecognition,光学文字辨识)光学文字辨识而可能有错字的噪声(noisy)文件、或数字音乐文件,如MIDI(Musical Instrument DigitalInterface,音乐设备数字接口)格式的文件,关键特征自动撷取都是信息检索系统的基础与核心技术,其重要性将随网络的发展而越来越明显。过去大部分的信息检索系统,不管使用者要查询的最终媒体为何,仅能提供文字媒体的全文或书目性数据作为检索的对象。如今,多媒体数据,如音乐数据,也有相当多的数字化文件出现在网络上,供人下载利用。例如,以MIDI形式记载相当于完整乐谱内容的数字文件,即如雨后春笋般在网站上出现。音乐数据过去是以书目数据的形式提供查询、取得与利用。使用者依照作曲者、标题等项目虽可检索到数据,然而此种检索的弹性仍然有限。例如,我们常常仅记得音乐的片段旋律,却不记得曲名或作曲家,此时便无法以这些书目数据查得音乐原件(即CD、录音带、录像带、乐谱、文件等音乐载体)。又如音乐创作者一有灵感,脑海中响出一段旋律,想要查询过去是否有近似的音乐创作时,也无法以书目性数据库就音乐内容进行查询。因此,在数字音乐数据越来越丰富的时代,提供有别于书目性数据,而以内容为主(content-based)的查询方式,变得越来越重要。然而,要建立一个实用性高并容许以内容查询的音乐检索系统需要克服多项问题。其中,最常遇见的问题就是,使用者查询时可能无法正确记忆曲调而输入不完整的片段,甚至不完全正确的曲调。此种情形即称为“字汇不匹配问题”。因此,“近似比对”在音乐检索系统里特别重要。然而近似字串的比对,却需要耗费较大的系统资源(计算时间、或储存空间)。此外,音乐内容适合用听的,不适合用看的,查询时对检索结果一一的试听检视,也将耗费使用者许多时间。如果能够撷取音乐内容的关键片段,如关键旋律,作为检索的对象,让使用者在查询音乐文件数据库前,先查询此关键旋律数据库,如此,即使在较低的比对分数下,也可以得到正确的结果,而没有太多不相关数据的干扰。这是因为关键旋律的数据量较少、较独特,彼此间的差异较大,因此可以容许查询条件更大的误差,而仍可得到结果。一旦正确的关键旋律找到后,依此找其对应的音乐文件将不成问题,因为关键旋律是原音乐文件的片段,完全没有误差,所以不会产生查询不匹配的问题。其整体的效果是,查询反应时间与检索失败的情况降低,而同时增强近似比对的容错能力。就文字数据而言,其关键词(或关键片语)的作用,就如同上述关键旋律对于数字音乐文件的用处一样。由于过去少有方法能同时针对各种数字媒体撷取其关键特征,下面的说明,分别就文字数据的关键词自动撷取,以及数字音乐数据的关键旋律自动撷取,说明过去采用的方法及其优缺点。从文献的分析得知,文字数据关键词撷取的技巧主要有三种方法。第一种为“词库比对法”即利用已建立的词库,来比对输入文件(或文句),将文件中出现在词库中的片语撷取出来。此种方法制作简单,只要将词库中的每个词,去比对是否出现在输入文件中即可。其结果都是词库中的正确词汇,但并不保证所有关键词都能被撷取出来。除此之外,其缺点还包括需要耗费人力、时间维护词库以容纳各个领域的专业用语与新生词汇,无法应付未曾预料的人名、地名、机构名等专有名称,且词库越大比对速度越慢。第二种为“文法剖析法”通过自然语言处理技术的文法剖析程序,剖析出文件中的名词片语,再运用一些方法与准则,过滤掉不适合的词汇。其结果几乎也都是有意义的名词片语,但大部分的剖析程序,需要藉助已经建立的词典或语料库,因此其缺点也和词库比对法一样。除此之外,有些文法剖析法甚至只能剖析合乎文法的完整文句,使得书目、OCR噪声文件等数据里的关键词无法被撷取出来。第三种方法为“统计分析法”通过对文件的分析,累积足够的统计参数后,再将统计参数符合某些条件的片语撷取出来。最简单的统计参数是对词汇发生的频率计数,即词频,将词频落在某一范围的词汇取出。由于没有用到词库或语料库,会有撷取错误的情况发生,得到无意义或不合法的词汇。此外,统计参数不足的关键词无法被选到。然而其优点是较不受语文国别与句型的限制,而且可以撷取出未曾被词库、语料库网罗的专业用语、新生词汇与专有名称等片语。其他的方法还包括上述方法的综合运用,或加入一些变化。例如,利用一些排版规则,将重要的片语取出,如标题项、条列项中的文字,或强调词(大写、字头语、斜体、加粗、底线、引号内文句)等。可以想见,各个方法都有其优缺点,运用时需要针对不同的环境条件加以考虑。国内对中文关键词自动撷取的问题也有研究。清华大学曾尝试撷取关键词作为书后索引(book index),其主要方法为运用电子字典协助断出词汇,再以统计方式配合自然语言处理技术剖析名词片语,最后再设定过滤条件,筛选索引词汇。在成效评估方面,以一本软件使用手册为对象,相对于人工制作的索引,其精确率与召回率仅能达到63%的程度。至于导致错误的主要来源有断词错误(42%)、统计特征不足(39%)、以及无法处理复杂语法结构(19%)。中央研究院也有关键词自动撷取运用于信息检索的研究。其主要作法是,先构建一种称为PAT-Tree的数据结构,再辅以词频等统计特征撷取出关键词,其正确率约为81%。PAT-tree虽然在信息检索上具有优良的特性,不过其建造过程需耗费相当长的时间,例如,构建600Mega字节的数据需要一个星期的时间。可以想见,此种方式的有效运用,必须要能改进PAT-tree的构建速度。上述方法在各方面有着不同的缺点,虽然实际运用于文字数据时,仍可获得部分成效,但是若考虑特殊条件的情况,例如OCR、语音辨识等噪声文件时,则上述方法便不适用,或其成效将下降到难以实用的地步。例如,由于“噪声文件”内出现的词汇可能包含辨识错误的重要片语,其错误情况难以事先预测。在无法预期文件会包含哪些错误却重要的词汇的情况下,无法应用需事先构建词库的“词库比对法”。其次,由于错误的文字夹杂在文句中,使文句变得无文法规则可言,也就无法利用“文法剖析法”来撷取关键词。此外,辨识出来的文字大都为纯文字文件,没有任何标示,也无法适用排版规则来辨识词汇。最后,“统计分析法”虽可撷取出新生词汇,但此方法需要大量数据的样本出现,以决定适当的统计参数,统计参数不足的关键词,将无法被选到,因此也限制了其在噪声文件上的应用。在音乐数据的关键旋律自动撷取方面,由于重复性(repetition)是音乐创作的规则之一,且重复片段经常是乐曲中重要的部分,是作曲者要强调的部分,也是阅听者较容易记住的部分,使用者检索时,本文档来自技高网...

【技术保护点】
一种数字文件关键特征的自动撷取方法,所述数字文件中包括有复数个元素,任一元素都包括至少一个字节,且将任一元素的重复出现次数称为一出现次数,而撷取任一元素时,该元素所具备的出现次数必须大于一临界值,此外,还有一分隔符号以做为参考标记,所述自动撷取方法包括: (A)将所述数字文件转换为一条列数据结构,该条列数据结构包括至少一个条列元素; (B)设定一组合条列区为一空虚状态; (C)依序取出所述条列数据结构中的任一条列元素,若取出的条列元素为分隔符号,则略过不处理,若取出的条列元素的出现次数大于所述临界值,且临接于所述条列元素之后的一后续元素的出现次数也大于所述临界值,则进行一组合程序,并将该组合程序所产生的一新元素储存于所述组合条列区中,否则,若取出的所述条列元素的出现次数大于所述临界值,且所述条列元素并未与邻接于所述条列元素之前的一前置元素进行所述组合程序,则将所述条列元素储存到一最后条列区中,且当所述组合条列区中的最后一个新元素不是分隔符号时,就在所述组合条列区的末端加入分隔符号; (D)将所述组合条列区转换为条列数据结构,重复进行步骤(B)-(C),直到到达一停止条件;以及 (E)将所述最后条列区中的所述些条列元素依照一显示条件加以显示,以供关键词特征检索之用。...

【技术特征摘要】

【专利技术属性】
技术研发人员:曾元显
申请(专利权)人:拓墣科技股份有限公司曾元显
类型:发明
国别省市:71[中国|台湾]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1