数字文件关键特征的自动撷取方法技术

技术编号：2882606 阅读：204 留言：0更新日期：2012-04-11 18:40

一种数字文件关键特征的自动撷取方法。将此数字文件转换为条列数据结构，该结构包括至少一个条列元素。然后设定一个组合条列区为空虚状态，并依序取出条列数据结构中的这些条列元素。依照不同的情形，将这些条列元素重新组合后放入组合条列区或最后条列区中，或是直接舍弃不用。之后将组合条列区转换为条列数据结构。重复进行上述步骤，直到到达停止条件。最后将最后条列区中的条列元素依照显示条件显示，以供关键特征检索之用。（*该技术在2020年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种数字文件自动检索方法，特别涉及一种。目前因特网的通达程度与普及速度，使数据成长更为快速，各种检索系统的使用情况更为频繁。新一代信息检索系统，尤其是允许全文式(full-text)或内容为主(content-based)的查询系统，必须能够运用更有效率的自动化技术，以提供简易有效的检索服务。然而此类自动化技术，如自动索引、索引典自动建立、自动摘要、自动分类、相关回馈、自动过滤、近似检索等，大部分都必须先进行文件关键特征撷取的动作，依此结果再进行其他的处理。因此，无论是书目性数据、数字全文数据、经OCR(Optical CharacterRecognition，光学文字辨识)光学文字辨识而可能有错字的噪声(noisy)文件、或数字音乐文件，如MIDI(Musical Instrument DigitalInterface，音乐设备数字接口)格式的文件，关键特征自动撷取都是信息检索系统的基础与核心技术，其重要性将随网络的发展而越来越明显。过去大部分的信息检索系统，不管使用者要查询的最终媒体为何，仅能提供文字媒体的全文或书目性数据作为检索的对象。如今，多媒体数据，如音乐数据，也有相当多的数字化文件出现在网络上，供人下载利用。例如，以MIDI形式记载相当于完整乐谱内容的数字文件，即如雨后春笋般在网站上出现。音乐数据过去是以书目数据的形式提供查询、取得与利用。使用者依照作曲者、标题等项目虽可检索到数据，然而此种检索的弹性仍然有限。例如，我们常常仅记得音乐的片段旋律，却不记得曲名或作曲家，此时便无法以这些书目数据查得音乐原件(即CD、录音带、录像...

【技术保护点】
一种数字文件关键特征的自动撷取方法，所述数字文件中包括有复数个元素，任一元素都包括至少一个字节，且将任一元素的重复出现次数称为一出现次数，而撷取任一元素时，该元素所具备的出现次数必须大于一临界值，此外，还有一分隔符号以做为参考标记，所述自动撷取方法包括：（Ａ）将所述数字文件转换为一条列数据结构，该条列数据结构包括至少一个条列元素；（Ｂ）设定一组合条列区为一空虚状态；（Ｃ）依序取出所述条列数据结构中的任一条列元素，若取出的条列元素为分隔符号，则略过不处理，若取出的条列元素的出现次数大于所述临界值，且临接于所述条列元素之后的一后续元素的出现次数也大于所述临界值，则进行一组合程序，并将该组合程序所产生的一新元素储存于所述组合条列区中，否则，若取出的所述条列元素的出现次数大于所述临界值，且所述条列元素并未与邻接于所述条列元素之前的一前置元素进行所述组合程序，则将所述条列元素储存到一最后条列区中，且当所述组合条列区中的最后一个新元素不是分隔符号时，就在所述组合条列区的末端加入分隔符号；（Ｄ）将所述组合条列区转换为条列数据结构，重复进行步骤（Ｂ）－（Ｃ），直到到达一...

【技术特征摘要】

【专利技术属性】
技术研发人员：曾元显，
申请(专利权)人：拓墣科技股份有限公司，曾元显，
类型：发明
国别省市：71[中国|台湾]

全部详细技术资料下载我是这个专利的主人