基于词汇统计的档案分类系统及方法技术方案

技术编号:16755652 阅读:31 留言:0更新日期:2017-12-09 02:08
本发明专利技术是提供一种基于词汇统计的档案分类系统及方法。前述的方法运行于具备运算能力的电子装置,包含下列步骤:首先,读取一个或多个档案的档案描述信息,以及一个或多个用户历史操作信息;接着,自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标以建立特定档案的连结。通过前述的处理后即可自动的对各个档案建立标签及链接,让用户可方便的进行档案管理。

File classification system and method based on vocabulary statistics

The present invention provides a file classification system and method based on vocabulary statistics. The electronic device running the method to have the operation ability, comprises the following steps: firstly, the description reads one or more file information, and one or more user operation history information; then, remove one or more lexical information from the user information extraction and operation history, calculation of lexical information in weight the value of Archival information description, and according to the weight value from lexical information choose lexical information as virtual directory lists to establish a specific link to the file label. After the aforementioned processing, it can automatically establish labels and links to each file so that users can easily manage the files.

【技术实现步骤摘要】
基于词汇统计的档案分类系统及方法
本专利技术是一种档案分类技术手段,尤指一种基于词汇统计的档案分类系统及方法。
技术介绍
为能方便的管理电子档案,用户大多会依照属性将各个档案放置在特定的文件夹,然而当各个档案具有多个属性时,前述的方案并无法让使用者便捷的存取档案。为解决前述的问题,部分的使用者会透过人工方式对各个档案设定属性卷标,而用户在点选各个标签后即可开启特定的档案,举例说明之,当使用者持有档案「花莲旅游计划书.doc」时,可对此档案设定卷标「花莲」以及卷标「旅游」,因此当使用者点选其中一个标签时,即可开启该档案。只是上述的方案需通过人工方式进行分类以及设定,因此使用者需耗费相当多的时间来执行重复性工作,而造成使用者相当大的困扰。而当档案数量日益增加时,前述的管理方案会严重的降低使用者的操作意愿。综上所述,如何提供一种可自动进行档案分类技术方案乃本领域亟需解决的技术问题。
技术实现思路
为解决前揭的问题,本专利技术的目的是提供一种基于词汇统计的档案分类系统及方法。为达上述目的,本专利技术提出一种基于词汇统计的档案分类系统。前述的系统运行于具备运算能力的电子装置,并包含读取模块以及处理模块。前述的读取模块是读取一个或多个档案的档案描述信息以及一个或多个用户历史操作信息。前述的处理模块连接读取模块,并自用户历史操作信息萃取出一个或多个词汇信息、计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中列表卷标是用于建立特定档案的连结。为达上述目的,本专利技术提出一种基于词汇统计的档案分类方法。前述的方法运行于具备运算能力的电子装置,并包含下列步骤:首先,读取一个或多个档案之档案描述信息,以及一个或多个用户历史操作信息。接着,自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中列表卷标是用于建立特定档案的连结。综上所述,本专利技术的基于词汇统计的档案分类系统及其方法可对档案内容中的词汇进行统计分析,并依权重值选取出特定的词汇作为虚拟目录列表的列表卷标,而得以提供使用者更为便捷的档案管理方案。附图说明图1为本专利技术第一实施例基于词汇统计的档案分类系统的系统方块图。图2为本专利技术第二实施例基于词汇统计的档案分类方法的方法流程图。图3~图5为本专利技术第二实施例档案分类方法的细部运作流程图。图6为本专利技术词汇权重排序流程图。图7为本专利技术后缀数组的示意图。图8为本专利技术字典顺序排序的示意图。图9为本专利技术优化虚拟目录列表示意图。图10为本专利技术档案分类画面。附图标记说明1基于词汇统计的档案分类系统11读取模块12处理模块具体实施方式以下将描述具体的实施例以说明本专利技术的实施态样,惟其并非用以限制本专利技术所欲保护的范畴。请参阅图1,其为本专利技术第一实施例基于词汇统计的档案分类系统1的系统方块图。前述的档案分类系统进一步包含读取模块11以及处理模块12。前述的读取模块11用于读取外部一个或多个档案的档案描述信息,及一个或多个用户历史操作信息。前述的处理模块12连接读取模块11,并自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依据权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,前述的列表卷标是用于建立特定档案的连结。于另一实施例中,前述的处理模块12是计算词汇信息位于档案描述信息的词频-逆向文件频率权重值。于另一实施例中,前述的处理模块12是依据列表上限以挑选词汇信息作为列表卷标。于另一实施例中,前述的处理模块12依据权重值大小以挑选词汇信息以作为列表卷标。于另一实施例中,前述的用户历史操作信息是用户历史操作信息。请参阅图2,其为本专利技术第二实施例基于词汇统计的档案分类方法的方法流程图。前述的方法运行于具备运算能力的电子装置,并包含下列步骤:S101:读取一个或多个档案的档案描述信息。S102:读取一个或多个用户历史操作信息。S103:自用户历史操作信息萃取出一个或多个词汇信息,并计算词汇信息位于档案描述信息的权重值,并依权重值自词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中列表卷标是用于建立特定档案的连结。于另一实施例中,前述的方法更计算词汇信息位于档案描述信息的词频-逆向文件频率权重值。于另一实施例中,更依据列表上限以挑选词汇信息作为列表卷标。于另一实施例中,前述的方法更依据权重值大小以挑选词汇信息以作为列表卷标。于另一实施例中,前述方法的用户历史操作信息是用户历史操作信息。本专利技术于第三实施例更提供一种基于词汇统计的档案分类计算机程序产品,当计算机装置加载并执行该计算机程序产品,可完成前述方法所述的步骤。本专利技术兹以第二实施例的档案分类方法进行说明,惟其第一实施例的档案分类系统以及第三实施例的基于词汇统计的档案分类计算机程序产亦可达成相同或相似的技术功效。请参阅图3~图5,其为档案分类方法的细部运作流程图,图3的步骤说明(S11~S15)如下:步骤S11:读取档案描述信息以及用户历史操作数据。前述的档案描述信息进一步包含:(1).档案数据属性(如:文件名、文件类型、档案标题、档案主旨、档案标记、档案GPS经纬度坐标数据);(2).使用者对该档案做的批注说明;(3).档案内容或档案内文;前述的用户历史操作数据进一步包含:(1).用户习惯的书签分类名称;(2).用户查询数据输入的关键词;或(3).用户点选实体或虚拟目录的项目名称等。步骤S12:此时会分析档案描述信息以及用户历史操作数据,以撷取用户关注的词汇。前述撷取使用者关注词汇方法的步骤(图4,S21~S23)说明如下:步骤S21:利用抽词方法自档案描述信息中撷取词汇,于此步骤主要是档案描述信息(例如:档案内容、档案数据属性与档案批注内容)进行词性分析,包括前后词判断,以及同义字(Synonym)、一字多义字(Polysemy)、反义字(Antonym)、泛称(Hypernym)、具体名称(Hyponym)等;而单字可能与前后文字组成单词(例如劳「作」、「作」业、工「作」、杵「作」、「作」文、磨杵「作」针等),并撷取语句中的重要词汇并依其出现的频率进行排序(S211~S213):步骤S211:前述的抽词方法可使用后缀数组(suffixarray)抽词方法。后缀数组的基本元素为给定一长字符串(string),其长度为L,后缀指的是从字符串的某一个位置i(0<=i<L)开始到字符串最末端字尾(string[L-1])的一个子串,表示为suffix(i);L个suffix(i)按照字典顺序排列,并依序储存在一个数组SA[L]中,则SA[L]称为后缀数组,其元素值储存的是suffix(i)的起始字符在string中的位置;每一个suffix[i]对应在SA[k]数组中的一个位置,将这个对应的位置储存为Rank[i],时间复杂度为O(N);对于任意两个suffix[i]和suffix[j],由于知晓其在Rank[L]中的前后位置,所以在O(1)的时间内就可以算得出他们的字典顺序排列大小关系;建构SA[i]数组中相邻元素的最长共同前缀(LCP,LongestCommonPrefix),Heig本文档来自技高网...
基于词汇统计的档案分类系统及方法

【技术保护点】
一种基于词汇统计的档案分类系统,运行于具备运算能力的电子装置,其特征在于,包含:读取模块,读取一个或多个档案的档案描述信息,以及一个或多个用户历史操作信息;以及处理模块,连接该读取模块,该处理模块更自该用户历史操作信息萃取出一个或多个词汇信息,并计算该词汇信息位于该档案描述信息的权重值,并依该权重值自该词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中该列表卷标是用于建立特定该档案的连结。

【技术特征摘要】
2016.05.30 TW 1051168181.一种基于词汇统计的档案分类系统,运行于具备运算能力的电子装置,其特征在于,包含:读取模块,读取一个或多个档案的档案描述信息,以及一个或多个用户历史操作信息;以及处理模块,连接该读取模块,该处理模块更自该用户历史操作信息萃取出一个或多个词汇信息,并计算该词汇信息位于该档案描述信息的权重值,并依该权重值自该词汇信息中挑选词汇信息以作为虚拟目录列表的列表卷标,其中该列表卷标是用于建立特定该档案的连结。2.根据权利要求1所述的档案分类系统,其特征在于,该处理模块是计算该词汇信息位于该档案描述信息的词频-逆向文件频率权重值。3.根据权利要求1所述的档案分类系统,其特征在于,该处理模块是依据列表上限以挑选该词汇信息作为该列表卷标。4.根据权利要求1所述的档案分类系统,其特征在于,该处理模块依据权重值大小以挑选该词汇信息以作为该列表卷标。5...

【专利技术属性】
技术研发人员:陈嬿如林春风王昱钧许庭玮
申请(专利权)人:中华电信股份有限公司
类型:发明
国别省市:中国台湾,71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1