使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序技术方案

技术编号：2853363 阅读：221 留言：0更新日期：2012-04-11 18:40

一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序，其把这些群集当做输入，并且用语汇数据库（ｌｅｘｉｃａｌ　　ｄａｔａｂａｓｅ）产生合适的群集标签。命名的程序包括用语汇数据库（ｌｅｘｉｃａｌｄａｔａｂａｓｅ）来找出群集中所有字汇的所有可能的字义，接着，用语义上相似于该字义的字汇来增大每一个字义，以形成一个相对应的定义向量，之后，执行使字义清楚的步骤来找出对于每一个字汇最相关的字义，定义向量被群集成群，每一个群表示一个内容，接着，这些内容根据支撑而予以排序，最后从主要内容的定义向量中，根据在语汇数据库（ｌｅｘｉｃａｌ　　ｄａｔａｂａｓｅ）中的属性，选出一预先确认数量的字汇和词组来当做标签。（*该技术在2023年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术为一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序，以自动命名一组文件的方式而使得文件组织化，尤其指一种使用语汇数据库来命名字汇群集和词组群集，并能适当的代表该字汇群集和词组群集的意义本质。
技术介绍
一般各式各样的文件都可以视为一种文件，而这些文件通常是字汇的组合，例如报告、新闻文章或网页，或者是用键盘或打字机而产生的字符的组合。随着现代技术的进步和计算机的可靠性增加，伴随而来的是各种软件产生的文件数量大幅度的增加，现今在大型的公司中，几十万份的文件，甚至更多的文件，一直以软件的形式产生和存储，由于这样的趋势，使得想在这些文件中取得某些特定数据或文件，变得困难和费时，因此产生了一个需求，也就是提供一个系统能有效率及适当的做文件分类，很明显的是一个有效的文件分类能使相关的文件组合成群，因此，这样的结果会使得所有的文件更能有效率的取得、浏览、搜寻和组织内容，也就是说更容易存取所有的文件。例如，一则新闻的提供者，还可以是报社、广播电台、电视台或其它组织，提供了一些关于财经、政治、运动、娱乐、分类广告、一般广告和其它主题...

【技术保护点】
一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其步骤包括有：ａ．使用语汇数据库，产生该群集中字汇的定义向量；ｂ．决定该定义向量的支撑；ｃ．决定对应于该群集中每一个字汇的最相关定义向量；ｄ．使用一个预先选定的群集方法，从该最相关定义向量中产生内容；ｅ．决定该内容的支撑；ｆ．指定已预先决定数量的上层排序的该内容为主要内容；ｇ．该主要内容尚未指定时，则由该群集中已预先决定数量的最常出现的字汇，来命令该群集；及ｈ．当该主要内容已经指定时，则由语汇数据库中能正确详细描述该...

【技术特征摘要】
【国外来华专利技术】US 2002-3-12 10/096,0481.一种使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其步骤包括有a.使用语汇数据库，产生该群集中字汇的定义向量；b.决定该定义向量的支撑；c.决定对应于该群集中每一个字汇的最相关定义向量；d.使用一个预先选定的群集方法，从该最相关定义向量中产生内容；e.决定该内容的支撑；f.指定已预先决定数量的上层排序的该内容为主要内容；g.该主要内容尚未指定时，则由该群集中已预先决定数量的最常出现的字汇，来命名该群集；及h.当该主要内容已经指定时，则由语汇数据库中能正确详细描述该主要内容的字汇选出，来命名该群集。2.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中一个或一个以上的该步骤，内建于硬件芯片中。3.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该产生定义向量的步骤，还包括有a.使用该语汇数据库，决定该群集中该字汇的所有字义；及b.使用该语汇数据库，由语义学上相关于该字义的字汇来扩大该字义。4.如权利要求3所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，该使用语汇数据库，由语义学上相关于该字义的字汇来扩大该字义的步骤，还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。5.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该决定该定义向量的支撑的步骤，还包括有a.指定一字汇的一定义向量为一选定的定义向量；b.计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测；c.由决定相似量测大于一预先决定的门坎的定义向量的数量，计算该选定的定义向量的支撑；及d.重复步骤a到c，直到所有字汇的所有定义向量被指定为该选定的定义向量，以决定其支撑。6.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的步骤，还包括有a.指定一字汇的一定义向量为一选择的定义向量，用以计算与该选定的定义向量的相似量测；b.找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量；c.输出该字汇的数量为相似量测；及d.对所有其它字汇的所有定义向量，重复步骤a到c。7.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该决定对应于群集中每一个字汇的最相关定义向量的步骤，还包括有a.从该群集中指定一字汇为选定的字汇；b.选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量，为该选定的字汇的最相关的定义向量；及c.对该群集中所有字汇，重复步骤a到b。8.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该决定该内容的支撑的步骤，还包括有a.决定对应于最相关的定义向量的支撑；及b.由增加对应于最相关的定义向量的支撑，来决定该内容的支撑。9.如权利要求8所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该决定对应于最相关的定义向量的支撑的步骤，还包括有a.指定该内容的一最相关的定义向量为一选定的定义向量；b.计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测；c.由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量，计算该选定的定义向量的支撑；及d.重复步骤a到c，直到所有该内容的所有最相关的定义向量被指定为该选定的定义向量，以决定其支撑。10.如权利要求1所述的使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法，其中该主要内容尚未指定时，则由该群集中已预先决定数量的最常出现的字汇，来命名该群集的步骤，还包括有a.从被当做为指定内容的该主要内容中指定一个字汇，使用该指定内容和该语汇数据库产生该群集的一合适的名称；b.使用该语汇数据库产生该指定内容的上义词和下义词；c.使用该语汇数据库决定该指定内容的深度；d.对该主要内容中所有其它字汇，重复步骤a到c；及e.从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇。11.一种使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，包括有a.使用该语汇数据库产生该群集中字汇的定义向量的手段；b.决定该定义向量的支撑的手段；c.决定对应于该群集中每一个字汇的最相关定义向量的手段；d.从该最相关定义向量中产生内容的手段；e.决定该内容的支撑的手段；f.指定已预先决定数量的上层排序的该内容为主要内容的手段；及g.从该主要内容命名该群集的手段。12.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该使用该语汇数据库产生该群集中字汇的定义向量的手段，还包括有a.使用该语汇数据库，决定该群集中该字汇的所有字义的手段；及b.使用该语汇数据库，由语义学上相关于该字义的字汇来扩大该字义的手段。13.如权利要求12所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，该使用该语汇数据库，由语义学上相关于该字义的字汇来扩大该字义的手段，还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。14.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该决定该定义向量的支撑的手段，还包括有a.指定一字汇的一定义向量为一选定的定义向量的手段；b.计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的手段；及c.计算该选定的定义向量的支撑的手段。15.如权利要求14所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测的手段，还包括有a.指定一字汇的一定义向量为一选择的定义向量，用以计算与该选定的定义向量的相似量测的手段；b.找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量的手段；及c.输出该字汇的数量为相似量测的手段。16.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该决定对应于该群集中每一个字汇的最相关定义向量的手段，还包括有a.从该群集中指定一字汇为选定的字汇的手段；及b.选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量，为该选定的字汇的最相关的定义向量的手段。17.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该决定该内容的支撑的手段，还包括有a.决定对应于最相关的定义向量的支撑的手段；及b.由增加对应于最相关的定义向量的支撑，来决定该内容的支撑的手段。18.如权利要求17所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该决定对应于最相关的定义向量的支撑的手段，还包括有a.指定该内容的一最相关的定义向量为一选定的定义向量的手段；b.计算该选定的定义向量与所有其它内容的所有其它最相关的定义向量的相似量测的手段；及c.由找出相似量测大于一预先决定的门坎的最相关的定义向量的数量，计算该选定的定义向量的支撑的手段。19.如权利要求11所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的系统，其中该从该主要内容命名该群集的手段，还包括有a.从被当做为指定内容的该主要内容中指定一个字汇，使用该指定内容和该语汇数据库产生该群集的一合适的名称的手段；b.使用该语汇数据库产生该指定内容的上义词和下义词的手段；c.使用该语汇数据库决定该指定内容的深度的手段；及d.从该语汇数据库选取最能描述该群集的意义的上义词、下义词和该深度的字汇的手段。20.一种使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，该计算机程序内建于一计算机可读取的介质中，其包括有a.一计算机可读取的程序代码，用以使用该语汇数据库产生该群集中字汇的定义向量；b.一计算机可读取的程序代码，用以决定该定义向量的支撑；c.一计算机可读取的程序代码，用以决定对应于该群集中每一个字汇的最相关定义向量；d.一计算机可读取的程序代码，用以从该最相关定义向量中产生内容；e.一计算机可读取的程序代码，用以决定该内容的支撑；f.一计算机可读取的程序代码，用以指定已预先决定数量的上层排序的该内容为主要内容；及g.一计算机可读取的程序代码，用以从该主要内容命名该群集。21.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，其中该计算机可读取的程序代码用以使用该语汇数据库产生该群集中字汇的定义向量，还包括有a.一计算机可读取的程序代码，用以使用该语汇数据库，决定该群集中该字汇的所有字义；及b.一计算机可读取的程序代码，用以使用该语汇数据库，由语义学上相关于该字义的字汇来扩大该字义。22.如权利要求21所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，该计算机可读取的程序代码用以使用该语汇数据库，由语义学上相关于该字义的字汇来扩大该字义，还包括同义字、下义词、上义词、比喻词及换喻词来扩大该字义。23.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，其中该计算机可读取的程序代码用以决定该定义向量，还包括有a.一计算机可读取的程序代码，用以指定一字汇的一定义向量为一选定的定义向量；b.一计算机可读取的程序代码，用以计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测；及c.一计算机可读取的程序代码，用以计算该选定的定义向量的支撑。24.如权利要求23所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，其中该计算机可读取的程序代码用以计算该选定的定义向量和所有其它字汇的所有其它定义向量的相似量测，还包括有a.一计算机可读取的程序代码，用以指定一字汇的一定义向量为一选择的定义向量，用以计算与该选定的定义向量的相似量测；b.一计算机可读取的程序代码，用以找出在该选择的定义向量和该选定的定义向量是共同的字汇的数量；及c.一计算机可读取的程序代码，用以输出该字汇的数量为相似量测。25.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，其中该计算机可读取的程序代码用以决定对应于该群集中每一个字汇的最相关定义向量，还包括有a.一计算机可读取的程序代码，用以从该群集中指定一字汇为选定的字汇；及b.一计算机可读取的程序代码，用以选择对于该选定的字汇的所有其它定义向量中有最高支撑的定义向量，为该选定的字汇的最相关的定义向量。26.如权利要求20所述的使用语汇数据库用以命名萃取自文件的字汇群集和词组群集的计算机程序，其中该一计算机可读取的程序代码用以决定该内容的支撑，还包括有a.一计算机可读取的程序代码，用以决定对应于最相关的定义向量的支撑；及b.一计算机可读取的程序代码，用以由增...

【专利技术属性】
技术研发人员：江昌茂，舒密特坦克，克莉丝蒂娜庄，路克艾尔发，
申请(专利权)人：威乐提公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人