当前位置: 首页 > 专利查询>复旦大学专利>正文

一种跨语种语料自动分类与检索方法技术

技术编号:2890369 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术属计算机信息处理技术领域,是一种跨语种语料自动分类与检索方法。其特点是用文本的Gram(n,s)表示以及其中的n-Gram分布特性来表示文本的特征,并由此计算文本之间的相似度;然后,根据相似度大小对文本进行自动聚类、领域分类、检索。与通常的基于字词频统计方法相比,本发明专利技术可同时处理多种语言,不需要任何词典,不需要对文本进行分词或抽词干等麻烦的预处理过程。方法的容错性、检索与分类的速度和精度等更为优越,且极易于在微机上实现。因此可广泛用于大规模多语种语料的自动聚类、邮件分类、信息过滤、电子会议以及信息检索服务等领域。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术属计算机信息处理领域,是。现代科学认为信息是人类赖以生存的三大基础(物质、能量、信息)之一。当今社会,信息已被当作取得竞争优势的智力资本(Gartner Group分析报告“查找数字信息的信息检索系统”。国际电子报,1996年2月19日专题)。但在信息时代不可避免地出现了信息超载的现象,特别地,九十年代信息量以大约每1.6年翻一倍的速度急剧增加。面对如此庞大的信息,要快速有效地获取所需要的知识犹如大海捞针,难度也在不断加大。同时,随着全球网络通讯技术和光盘等信息存储介质的发展,越来越多的新增信息以计算机可读文本的形式存在着,这不仅方便了用户,也大大加快了信息流通的速度。然而,许多文本信息往往是规模很大,实时性强(如新闻语料);语言混杂(包含英语、汉语等多种语言),内容分布广;格式灵活,有时还含有一定的拼写错误……。而对于特定的用户而言,所需要的信息往往只是其中极小的一部分。随着更多的网络和文本信息可供访问,特别是从Internet的World Wide Web上寻找正确的文本(或者将它们分配到所需要的用户)将会更富挑战性。面对日益突出的信息超载问题,迫切需要对这种形式的混合语料进行更快速有效的处理。目前国内外均已开展了有关的研究,很多成果,包括全文信息检索(刘开英。中文全文检索研究。见第二届全国计算语言学联合学术会议论文集。厦门1993年11月)、主题的自动标引(王永成,顾晓明。中文文献主题的自动标引。见第二届全国计算语言学联合学术会议论文集。厦门1993年11月)、文本的过滤(Belkin N J,Croft WB。Information Filtering and Information RetrievalTwo Sides of the Same Coin?Commun.ACM,Dec.1992,Vol.35,No.12)以及自动分类(吴军,王作英等。汉语语料的自动分类。中文信息学报,1995,Vol.9,No.4)等,有的已经走向实用化或商品化。例如国外的GOPHER软件,是一个在Internet上广泛使用的全文查询和检索软件。它试图通过关键词的匹配从Internet上找到使用者所关心的各种文献,并且用户可以对检索出的文献是否感兴趣进行打分,该软件能根据用户打分的情况自动调整下次检索的关键词。经过几次交互过程,检索结果会愈来愈符合使用者口味。其它比较成熟的系统还有YAHOO软件、GE的TRUMP系统、SRI的TACITUS系统等。上述系统,无论是处理中文还是英文,其采用的技术和方法以基于主题词(或关键词)搜索、字词频度比较为主,而且只能处理一种语言。采用关键词匹配的系统一般是以主题词表为基础的,文献的内容以主题词表中词的组合来表征和标引,用户的检索或者分类要求也是以主题词表中的词构成的某种表达式(如布尔表达式)表达的。这种方法往往需要手工建立主题词典,对标引者要求较高,比如有些词很难判断是否可用作关键词,而且主题词表由于其固有的特性不能及时反映变化了的情况。而基于字词频度比较的系统,一般是以文本中的字词或字词的组合来表征文献的内容。这种系统需要有词典对输入文本进行各种预处理,并通过禁用词表(STOPLIST)滤掉一些对分类和检索作用不大的高频词(如“的”、“了”、“the”、“a”、“and”等)、标点符号等。对于汉语,预处理包括对输入文本进行分词,主要有切分歧义的问题,例如“热能发电”,只有在特定的语境下才可判断应切分为“热能|发电”还是“热|能|发电”。对于英语,预处理中要对输入文本进行抽词干(Stemming),例如把“retrieve”、“retrieves”、“retrieved”、“retrieving”、 “retrieval”都要变成词干“retriev”,以便提高性能。无论是哪种语言,处理未知词都是比较棘手的问题,因为语言是个开放集,新词总在不断地出现,很难建立包含所有单词的完备词典(建立禁用词表也有类似问题)。本专利技术的目的在提出一种不依赖语种、能避免处理未知词难题的可同时处理多种语言、简单快速、容错能力强的语料自动分类、检索的方法。为了便于信息处理和交换,计算机在处理文字时一般都采用一个或多个字节对所用的字符进行编码(如汉字的双字节国标码或机内码表示,英文字符的单字节ASCII码表示),不管哪一种情况,所有造字或构词的基本元素都可以看成是以字节(8位二进制)为单位所组成,它们的全体构成一个有限的集合(256个元素)A={e1,e2,e3,…,e256}。我们称A为字母表;A中的每个元素ei(i=1,2,…,256)称为字母或字符。由字母或字符所组成的有穷序列称为A上的字符串,字符串所含的字母个数称为该串的长度,而长度为n个字母的字符串我们称为n-Gram。从文本字符流中连续截取n个字节,便可得到该文本的一个n-Gram。设想有一宽度为n(设n不超过文本的长度)的截取窗口置于文本上,从窗口中截取的连续n个字节构成一个n-Gram,则当窗口从文本的开头以单字节步长(每次移动一个字节)移到文本末尾时,我们便可得到该文本的所有n-Gram。截取窗口的移动步长可以是多个字节,以便跳过部分n-Gram。为了方便,对某一文本,当截取窗口的宽度为n,移动步长为s个字节时,我们把得到的所有的 n-Gram记作Gram(n,s)。它是由长度为n的字符串n-Gram组成的一个集合,也称为该文本的Gram(n,s)表示。它具有如下特性①从文本中截取的n-Gram,既可能是一个有意义的字、词、词干或词组,也可能不是自然语言中的任何字、词;但当s=1时文本的Gram(n,s)包括了长度为n个字节的所有词(字、词干或词组)。②在某一n-Gram中,特定字母既可以出现若干次,也可以不出现;但当n-Gram为有意义的字、词、词干或词组时,它的组成字母以及每个字母的排列次序都应该是有规则的。③文本的Gram(n,s)显然与文本所包含的字、词以及相邻字、词之间的先后次序(当n>1时)都有关系。由于文本中的字词及其先后次序(即文本中词序的部分信息)在某种程度上能反映出文本的内容,文本的Gram(n,s)显然也与文本的内容有一定的关系。本专利技术用文本的Gram(n,s)表示以及其中的n-Gram分布特性来表示文本的特征,并由此计算文本之间的相似度;然后,根据相似度大小对文本进行自动聚类、领域分类、检索。具体方法如下对于件数为M的一批文本T1,T2,…,TM,我们可以求出基于n-Gram的文本特征表示以及文本间的相似度,即①读入文本Ti,从文本开始按给定的长度n和步长s产生Ti的Gram(n,s),并记录所有n-Gram的总个数Ni(包括重复的n-Gram,n和s的取法在后面说明)。②将①中得到的Gram(n,s)进行快速排序,并将结果放于缓冲区(或文件)中。③重复①②,直到M个文本都处理完毕。④采用多路归并方法(见后面说明),统计出以上缓冲区(或文件)中M个文本所含的相异n-Gram,并统计各个n-Gram所出现的文本数Fk以及在Ti中的频数Fik(即Ti的Gram(n,s)排序后第k个n-Gram重复出现的次数),滤掉只在一个文本中出现(Fk=1)的所有项,以便压缩n-Gram的总本文档来自技高网...

【技术保护点】
一种跨语种语料自动分类与检索方法,设A={e↓[1],e↓[2],e↓[3],…,e↓[256]}为造字或造词基本元素的集合,记A上长度为n个字母的字符串为n-Gram。对于某一文本,当截取窗口宽度为n,移动步长为s个字节时,得到的所有的n-Gram记作Gram(n,s),称为该文本的Gram(n,s)表示,其特征在于用文本的Gram(n,s)表示以及文本中的n-Gram分布特性来表示文本的特征,并由此计算文本之间的相似度;然后,根据相似度大小对文本进行自动聚类、领域分类、检索。具体步骤如下: 对于件数为M的一批文本T↓[1],T↓[2],…,T↓[M],我们可以求出基于n-Gram的文本特征表示以及文本间的相似度,即 ①读入文本T↓[i],从文本开始按给定的长度n和步长s产生T↓[i]的Gram(n,s),并记录所有n-Gram的总个数N↓[i]; ②将①中得到的Gram(n,s)进行快速排序,并将结果放于缓冲区中。 ③重复①②,直到M个文本都处理完毕。 ④采用多路归并方法,统计出以上缓冲区中M个文本所含的相异n-Gram,并统计各个n-Gram所出现的文本数F↓[k]以及在T↓[i]中的频数F↓[ik],滤掉只在一个文本中出现(F↓[k]=1)的所有项,以便压缩n-Gram的总数目。N为过滤后相异n-Gram的总个数。 ⑤对④中所有F↓[k]>1的项,按以下公式计算第k个n-Gram在T↓[i]中的权重w↓[ik]: w↓[ik]=F↓[ik]/N↓[i]*log↓[2](1+F↓[k]) (1) 从而得到T↓[i]的特征向量表示(w↓[i1],w↓[i2],…,w↓[iN])。 其中:N↓[i]为第①步得到的T↓[i]中所有n-Gram的总数,i=1,2,…,M ⑥根据向量内积,计算T↓[i]与T↓[j]之间的相似度: *** (2) 其中S↓[ij]=S↓[ji],并且:0≤w↓[ik]≤1,0≤*≤1,0≤s↓[ij]≤1。 这里i,j=1,2,…,M;k=1,2,…,N。 上述步骤①中n的取值为1≤n≤10,s的取值为1≤s≤n。...

【技术特征摘要】

【专利技术属性】
技术研发人员:韦雄观吴立德
申请(专利权)人:复旦大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1