汉语文本中词及词属性自动索引和检索的方法技术

技术编号:2864854 阅读:213 留言:0更新日期:2012-04-11 18:40
一种汉语文本中词及词属性自动索引和检索的方法,其特征在于以下步骤:    (a)从一个用户词库出发,对词属性编码并将用户词库自动转为机内词库;    (b)使用机内词库对用户语料库自动切词,生成用户语料库切词结果,进而生成词索引和词属性索引;    (c)使用用户检索条件,借助词属性索引、词索引和用户语料库切词结果对用户语料库进行检索,得到检索结果。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种文本检索技术,特别是涉及汉语文本中的词及词属性自动索引和检索的方法。2.
技术介绍
从事汉语语言教学、语言研究、词典编纂和语言工程(例如机器自动翻译、自动朗读、自动语音识别等)开发的人员需要大量积累有关词和词属性的语言实例,如“因为”后面若干个词是“所以”的实例,副词后面接形容词的实例,介词“把”后面隔一个词是动词的实例等,用来进行语言例证收集、语言现象统计、语言规律归纳。过去,语言实例的积累、统计和规律归纳主要靠人工抄卡片。随着计算机技术和网络技术的发展和普及,电子文本(称为语料)的获取越来越容易,基于语料库的统计方法迅速发展,出现了语料库标注工程和语料库检索软件。为此,人们准备了大量的电子文本,称为生语料库。对于生语料需要进行切词和词属性消歧,如此加工过的称为熟语料库。针对该熟语料库开发检索软件,可以用词和词属性为条件来检索。汉语与英语不同,词与词之间没有分隔标记,切词就是找出词的左右边界,在边界处加上分隔符。切词的困难在于同一字串有不同的切分可能。如“这项研究所以能成功是因为……”同“这个研究所以此为目标……”中的“研究所以”,前一句应切分为“研究/所以”,后一句应当切分为“研究所/以”。另一个困难是大量的人名、地名、机构名、新词语等计算机难以一一识别。词有属性,语法属性如名词、动词、形容词等,字长属性如一字词、二字词等,还有其他类型的属性。对于一个词可能具有的属性来说,有一些是可以并存的,如“人”既有名词属性,又有一字词属性;有些是相互排斥的,在不同的上下文中取不同的属性。如“标准”既有名词属性又有形容词属性,在“制定技术标准”中的“标准”为名词属性,“发音很标准”中的“标准”为形容词属性。词属性排歧就是在几个相互排斥的可能属性中根据上下文选定一个属性。目前计算机自动切词的正确率可以达到98%左右,词的语法属性的自动排歧正确率则不是很高。为了提高准确性以满足实用的需要,就得使用大量人力来校正计算机自动切分和词属性消歧的结果,这就是语料库标注工程。语料库标注工程确实有一定效果,一定程度上为检索软件提供标准数据,替代了人工收集语言实例、抄卡片、数卡片的繁重劳动,但从方法上说有重大缺陷。首先是耗费人力仍然太大。计算机自动切词和对词属性自动消歧后需要大量人力进行校正。一般来说,一个人一天最多校正1万字,那么1年的人民日报文本大约需要10个人年来校正。第二是检索对象太有限。由于耗费人力太大,所以不可能加工太大规模的语料库,于是可检索的对象非常有限。比如,1998年的人民日报语料加工过了,那么1998年的人民日报中的有关词和词属性的语言现象就可以被检索了,但1999年的就不能被检索,至于“红楼梦”、“骆驼祥子”等小说,台湾香港的语料,只要尚未对语料进行加工,就不能被检索。因此,这一方法远不能满足用户的广泛需求。第三是词属性体系和词属性标注太死板。语言信息处理应用面非常广,不同的应用会需要不同的词属性体系。同一种类的属性体系,有的可能需要粗分类属性,有的可能需要细分类属性。属性体系确定了,对于某一个词在某个特定上下文中到底应该标注哪种属性,不同的人会有不同的看法。但是,语料库标注工程一旦开始,属性体系就不能动了,语料库标注完了以后哪个词标什么属性也是确定的了,从而无法满足不同人的不同需要。第四是准确性并不是很高。在计算机自动切分并作词属性排歧的基础上进行人工校对的目的是提高准确性。但是汉语中词的概念是模糊的,有些词属性的定义也难以覆盖全部语言现象,所以人工校正中会遇到许多难以统一的问题。此外,语料库标注工程中人员的增加和时间的延长,都会削弱校正过程的可控性,影响最终的加工结果的准确性。其实,从另一个角度考虑问题,可以省去语料库标注工程的大量人力消耗,而取得极高的效率和极大的灵活性。语料库标注工程的工作内容一是校正切词中的错误,二是校正词属性排歧中的错误。前者由于计算机自动切词的正确率相当高,故即使不校正,许多情况下也已经可以满足实用需要,因此重点在于后者。语料库标注工程最花费人力的是对词属性自动消歧的校正,但校正后的准确性仍然并不很高。于是,我们试探另一种想法对于一个词的相互排斥的几个属性,计算机不做消歧,当然人也就不做校正。不管什么上下文,让这个词总是带有这些相互排斥的属性。这样做的好处首先是避免了人工加工语料库的大量消耗,使语料库索引完全自动化。由于不再受制于人的加工能力,所以能充分发挥计算机的效能,有可能基于任何词表、任何词属性体系,对任何生语料自动建立词及词属性的索引,进而支持检索软件做词及词属性的检索。如此能大大扩展这种检索系统的应用范围。这样做的弊病是会增加检索的不准确性,把一个词在特定上下文中不该有的属性检索出来,但不会发生遗漏。检索的不准确性所造成的问题在许多情况下并不严重,因为需要根据上下文对属性排歧的词毕竟是少数,并且除了涉及统计训练的语言工程开发问题之外,在语言教学、语言研究、词典编纂等领域对于计算机检索的主要要求是查全,而不是查准。即使有一些不准的,待机器检索出来后由人来筛选也完全可以接受。另一方面,使用现有技术,词属性自动消歧加上人工校正,仍留存的错误也会造成的属性检索结果不准确,更严重的是无法保证检索结果的无遗漏。权衡利弊得失,在面向在语言教学、语言研究、词典编纂等领域的情况下,采用全自动的词及词索引方法显然大大优于依赖大量人力投入的语料库标注方法。关键问题是如何真正发挥出计算机的效能,可以基于任何词表、任何词属性体系,对任何生语料建立词及词属性的索引并进行检索,而正是本专利技术要解决的技术问题。3.
技术实现思路
本专利技术涉及一种信息检索技术,特别是对。本专利技术的索引和检索方法的处理对象是未经加工的文本,称为生语料库,检索条件是词及词属性(或词属性的某种逻辑组合),检索结果是生语料库中从形式上匹配检索条件的词语串。使用本专利技术,无需人手标注,就能基于任何词表和任何词属性体系,对任何生语料,进行词及词属性的自动索引和检索,因而能免去语料库标注工程的巨大工作量,进而大大节省语言教学、语言研究、词典编纂人员的人力,大大提高他们的工作效率。本专利技术要解决的技术问题是如何能基于任何词表、任何词属性体系,对任何生语料库自动生成词和词属性的索引,并用词和词属性进行检索。本专利技术产生的技术效果是在做词及词属性检索的工作中免去语料库标注工程的巨大工作量,进而大大节省语言研究、语言教学、词典编纂人员的人力,大大提高他们的工作效率。本专利技术的技术方法详述如下。(1)方法组成本专利技术的方法由以下步骤组成a.从一个用户词库出发,对词属性编码并将用户词库自动转为机内词库;b.使用机内词库对用户语料库自动切词,生成用户语料库切词结果,进而生成词索引和词属性索引;c.使用用户检索条件,借助词属性索引、词索引和用户语料库切词结果对用户语料库进行检索,得到检索结果。(2)方法内容a.由用户词库得到机内词库为使用本专利技术的方法,用户需要准备自己的词库,称为用户词库。用户词库包括3部分词表,词属性体系,以及词属性标记。词表就是词形的列表,列出需要处理的词。词的属性体系可以包括用户所要检索的任何类型的词属性。语法属性如名词、动词、形容词等;构词属性如偏正式、述宾式、主谓式等;文字属性如一字词、二字词、三字词等;语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种汉语文本中词及词属性自动索引和检索的方法,其特征在于以下步骤(a)从一个用户词库出发,对词属性编码并将用户词库自动转为机内词库;(b)使用机内词库对用户语料库自动切词,生成用户语料库切词结果,进而生成词索引和词属性索引;(c)使用用户检索条件,借助词属性索引、词索引和用户语料库切词结果对用户语料库进行检索,得到检索结果。2.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于所述的用户词库为一个关系型数据库,其字段为词和若干词属性,每一个词对应一个记录,记录的内容是该词对每一个词属性的表示有或无的标记。3.根据权利要求2所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于所述的用户词库的词属性可以是任何类型的属性,同一个词库可以包括多种不同类型的词属性。4.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于所述的机内词库是1维数组,数组元素是2元结构。其中一元是词,另一元是词的属性码。5.根据权利要求1所述的汉语文本中词及词属性自动索引和检索的方法,其特征在于所述的用户语料库的切词结果是1维数组,数组元素是3元结构,其中一元是词例,另一元是该词例的首字位置,还有一元是未登录词标记。整个数组按照词例...

【专利技术属性】
技术研发人员:宋柔樊太志罗智勇荀恩东
申请(专利权)人:北京语言大学语言信息处理研究所
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1