概念性标题产生方法技术

技术编号:4191296 阅读:336 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种概念性标题产生方法,首先从文件丛集中摘录出多个特征词汇,并在阶层式知识结构里寻找对应这些特征词汇的多个概念词,并根据这些概念词的阶层深度以及选取次数,自动产生一个足以涵盖这些文件的内容的概念性标题,据此可以减轻以往需依靠人力进行文件分析及标题命名的负担。

【技术实现步骤摘要】

本专利技术是有关于一种标题产生方法,且特别是有关于一种文件丛集的概念 性标题产生方法。
技术介绍
在这个信息爆炸的时代,如何在数量庞大的文件中快速而有效地找到所需 要的信息,俨然已成为一项相当重要的学问。因此各种有关于文件分类(document categorization)与文件聚类(document clustering)的研究便扮演着 提高文件检索、分析、以及管理的效率时所不可或缺的角色。然而,有别于文 件分类中,对于每一个类别(category)都已预先定义好标签(label)或词汇(term)的集合;文件聚类需要在将文件聚类成多个丛集之后,指定简要的记 述标题以帮助分析者解读聚类结果。目前文件聚类的标题多半是从文件本身是 用的词汇中所撷取出来,虽然这样的作法有其正当性,然而这通常不足以概括 性的描述同一类别内所有文件的内容。特别是当文件内容涵盖相当广泛的领域 知识时,更需要找出一个概念性的标题(generic topic),以减轻文件分析所 需要的负担。在文件聚类的应用中,不可避免地需要替一组文件丛集标示--个标题。现 阶段用来命名文件丛集标题的方法通常是依赖撷取这些文件中的重要词汇 来完成,而对于不同的聚类演算法来说,其计算的重要词汇常常迥然不同。当使用向量空间模型来表达文件资料时,文件丛集是以文件向量的加权总 合或其中心点来表示。而在这些文件向量中,具有最高权重值的词汇将用来作 为文件丛集的标题。举例来说,在Cutting, et.al及Marit A, et.al提出的丛集 方法中,是使用正规化的出现频率(term frequency, TF)作为文件向量中每 个词汇的权重值;而在Yiming Yang, et. al提出的方法中,则是使用TF与反转 文件频率(inverse document frequency, IDF)的乘积作为权重值。在Krista Lagus, et. al所提出的自我组织图方法中,文件丛集是表示二维图形,而其中具有最高品质测量(goodness measure)的词汇则被用来作为文件 丛集的标题。在Russell Swan, et. al所提出的分类词汇以侦测事件的应用中,文件丛集 的标题是由排序最高的名称实体(name entity)接上排序最高的名词词组组合 而成。其中,这些词汇的顺位是通过将一时间间隔内出现的词汇的卡方 (chi-square)值排序而得。而在OrenZamir, et. al所提出的网页文件丛集方法中,则以在文件丛集的 大多数文件中都有出现的最长词组作为此文件丛集的标题。在其他像是文件摘要及翻译的相关领域中,文件理解会议(Document Understanding Conference, DUC)的主要任务在于如何产生非常短的摘要。这 些短约10个字左右的摘要具有作为文件丛集标题的可能性。然而,该会议多 数的作法都是使用从文件中摘录词汇的方法,而这些方法仍需通过一个具有人 工指定标题的文件集合来训练出一个翻译模型,才能够将文件字汇映射 (map)为人工指定标题。此外,这些摘要对于文件集合来说,多半是倾向于 事件描述导向,而非主题描述导向。上述的方法多半是从文件内容本身选取词汇来作为文件丛集的标题,然而 当文件丛集的内容所涵盖的领域知识相当广泛时,上述方法所选出来的标题多 半缺乏概念性,而无法充分概括这些文件所要表示的内容。因此,目前的解决 方法还是必须依赖专门人员,以人工的方式对文件丛集的标题进行命名,此举 不单会造成大量的人力花费,也会降低文件分类的效率。
技术实现思路
有鉴于此,本专利技术的目的就是在提供一种,通过摘录 多篇文件中的特征词汇,并在阶层式知识结构中搜寻出对应各特征词汇的多个 概念词,而能够根据这些概念词的权重值选出最适合用来概括这些文件内容的 概念性标题。为了实现上述目的,本专利技术提出一种,用以产生一个能概括多个文件的文件内容的概念性标题。本方法包括下列步骤首先,摘录 这些文件中的多个特征词汇。接着,在一个阶层性知识结构中,找寻对应这些 特征词汇的多个概念词,并计算出每个概念词的阶层深度与选取次数,其中选取次数是指在以这些特征词汇找寻概念词时,每一个概念词被选取的次数总 和。最后再根据每个概念词的阶层深度与选取次数,计算各个概念词的权重值, 并选取具有最高的权重值的概念词作为这些文件的概念性标题。依照本专利技术的较佳实施例所属的,其中依照词汇选取 规则,摘录这些文件中的多个特征词汇包括下列步骤先依照断词及关键词撷 取策略处理这些文件,以获得多个候选词汇。接着,计算这些文件内候选词汇 与多个类别名称相关联的多个相关系数。并选取相关系数大于某个特定值或相 关系数排序在最前面的数个候选词汇作为这些文件的特征词汇。此外,还可以 计算每一个候选词汇在这些文件中的出现频率,将每个候选词汇的相关系数与 其出现频率相乘,选取乘积大于某个特定值或乘积排序在最前面的数个候选词 汇作为这些文件的特征词汇。依照本专利技术的较佳实施例所述的,其中阶层式知识结 构为树状结构,包括根节点及多个子节点,而根节点及所有子节点是用来表示同义词汇。其中根节点与子节点之间的连结是由上位词关系(hypernym)或广 义词(broaderterm)等语义关系所建立。依照本专利技术的较佳实施例所述的,其中在一个阶层式 知识结构中,找寻对应这些特征词汇的多个概念词,并计算出每个概念词的阶 层深度与选取次数的步骤,包括先找出对应这些特征词汇的同义词汇及其代 表的子节点位置,再选取由子节点朝根节点的路径上的所有同义词汇以作为这 些特征词汇的上位概念词。其中,这些路径上的同义词汇被选取的次数是作为 每个概念词的选取次数,且对于每一个特征词汇来说,当有不同的路径可以从 这个特征词汇到达根节点时,其路径上相同的上位概念词只能计算一次。依照本专利技术的较佳实施例所述的,其中阶层深度是以 阶层式知识结构的根节点为基准,逐层向下累加至对应概念词的子节点而得。依照本专利技术的较佳实施例所述的,其中权重值包括正 比于阶层深度的S型函数(Sigmoid flmction)值以及选取次数。本专利技术是通过阶层式知识结构的辅助,将多篇文件中的特征词汇对应成该 知识结构中的概念词,并依据每个概念词的阶层深度与选取次数,计算出这些 概念词的权重值大小,以据此达到自动产生概念性标题的目的。为让本专利技术的上述和其它目的、特征、优点能更明显易懂,下文特举本专利技术的较佳实施例,并配合所附附图,作详细说明如下。 附图说明图1为本专利技术较佳实施例的的流程图2是依照本专利技术较佳实施例的从文件丛集摘录概念性标题的范例;图3是依照本专利技术较佳实施例的从文件丛集摘录概念性标题的范例;图4是依照本专利技术较佳实施例的专利文件聚类成6个文件丛集的主题地图5是依照本专利技术较佳实施例的专利文件聚类成6个文件丛集的详细内容.,图6是依照本专利技术较佳实施例的从文件丛集摘录概念性标题的范例。 [主要元件符号说明〗U0 140:本专利技术较佳实施例所述的的各步骤 131、 240、 495、 650、 412、 90、 168、 883、 631、 603、 727、 226、 899、 853、 219、 388、 355、 492、 12、 712、 273:文件本文档来自技高网
...

【技术保护点】
一种概念性标题产生方法,用以产生能概括多个文件的文件内容的一概念性标题,其特征在于,包括下列步骤: a,摘录所述多个文件中的多个特征词汇; b,在一阶层式知识结构中,找寻对应所述多个特征词汇的多个概念词,并计算出每一所述概念词的一阶层深 度与一选取次数,其中该选取次数是指在以所述多个特征词汇找寻所述多个概念词时,每一所述概念词被选取的次数总和; c,根据每一所述概念词的该阶层深度与该选取次数,计算出一权重值;以及 d,选取具有较高的该权重值的该概念词作为该概念性标题。

【技术特征摘要】
1、一种概念性标题产生方法,用以产生能概括多个文件的文件内容的一概念性标题,其特征在于,包括下列步骤a,摘录所述多个文件中的多个特征词汇;b,在一阶层式知识结构中,找寻对应所述多个特征词汇的多个概念词,并计算出每一所述概念词的一阶层深度与一选取次数,其中该选取次数是指在以所述多个特征词汇找寻所述多个概念词时,每一所述概念词被选取的次数总和;c,根据每一所述概念词的该阶层深度与该选取次数,计算出一权重值;以及d,选取具有较高的该权重值的该概念词作为该概念性标题。2、 根据权利要求1所述的概念性标题产生方法,其特征在于,该步骤a 包括al,将所述多个文件分别进行断词及关键词撷取处理,获得多个候选词汇;a2,计算所述多个文件内的所述多个候选词汇的相关系数;以及 a3,选取该相关系数大于一特定值或相关系数排序在前面的所述多个候 选词汇作为所述多个特征词汇。3、 根据权利要求2所述的概念性标题产生方法,其特征在于,其中该步 骤a3还包括计算每一所述候选词汇在所述多个文件中的一出现频率; 将每一所述候选词汇的该相关系数与该出现频率相乘,获得一乘积;以及选取该乘积大于该特定值或该乘积排序在前面的所述多个候选词汇作为 所述多个特征词汇。4、 根据权利要求1所述的概念性标题产生方法,其特征在于,该阶层式 知识结构为一树...

【专利技术属性】
技术研发人员:曾元显
申请(专利权)人:威知资讯股份有限公司曾元显
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1