本发明专利技术提供一种中文单字串模式和词缀模式的新词自动识别技术及系统,即基于大规模短文本语料库的单字串模式和词缀模式的中文新词识别方法,采用了统计和规则相结合的方法。主要是将新词的形成模式与统计其词频相结合,分成了单字串模式和词缀模式,分别采用不同的提取方法,不同的新词过滤方法,最后结合词频信息,提取两种模式的中文新词。
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域,具体地涉及对中文新词进行自动识别、提取的控制方法以及相应的控制系统。
技术介绍
中文自动分词是处理中文自然语言的基础,但是由于信息的飞速发展,中文语言在很大范围的各个领域上都产生了巨大的变化,越来越多的新词不断地出现在网络中,这给中文分词工具的词典创建带来了很大的挑战,也必然导致分词正确率的降低。因此新词识别成为中文信息处理领域上的一个瓶颈。新词自动识别技术在提高中文分词技术的正确率上具有很大的帮助,另外新词语自动发现可以应用于输入法细胞词库更新,如搜狗输入法、QQ输入法、谷歌输入法都带有自动在线更新词库功能。除了上面介绍的两个领域之外,新词自动发现技术对机器翻译、语言学应用和信息检索等领域也都有较为重要的意义。 目前主要的研究方法大致分为3种一是基于规则的方法,利用构词原理,结合语义信息和词性来建立模式库和规则库,再通过模式匹配的方式来识别新词;二是基于统计的方法,通过对语料库中的词条组成或特征信息进行统计来识别新词;三是基于统计和规则相结合的方法。基于规则的方法优点是准确率高,针对性比较强,但是建立规则和维护规则会出现很大的困难。而且规则一般都是与某些领域相关的,因此移植性和适应性都比较差。而基于统计的方法优点是灵活,适应能力强,可移植性比较好,但是需要大规模的语料库进行训练。并且由于可统计的特征比较少,一般都会存在数据稀疏,提取准确率比较低的缺点。本专利技术主要是结合基于规则和统计的方法来进行新词的识别。本专利技术是基于规则和统计相结合的方法提取网络新词,主要是将新词的形成模式与统计其词频相结合,对不同的模式采用不同的提取方法,不同的垃圾串新词过滤方法,最后结合词频信息,提取不同模式的新词。
技术实现思路
针对现有技术的不足,本专利技术的目的是提出一种基于词的形成模式的网络新词自动识别技术,具体地是一种在新词形成模式的基础上,基于大规模短文本语料库的网络新词自动识别技术。根据本专利技术的一个方面,提一种中文单字串模式和词缀模式的新词自动识别技术,通过分析短文本中出现新词的规律,基于大规模短文本语料库,自动识别短文本中的新词,其包括如下步骤a.对大规模短文本进行中文分词,并将每一条短文本的分词碎片相适应地存储;b.对于每一条短文本的分词碎片进行分析,查找碎片中的单字串潜在新词以及词缀模式潜在新词;c.对于单字串潜在新词,首先提取单字串潜在新词对应的最长潜在新词,统计每个最长潜在新词出现的频次,存入单字串潜在新词集;然后根据最长潜在新词及其频次,提取最长潜在新词的每个子串,统计每个子串的频次,存入单字串潜在新词集;d.对于词缀模式的潜在新词,提取每个词缀模式潜在新词,统计每个词缀模式的频次,存入词缀模式潜新词集中;e.对于所述的单字串潜在新词集和词缀模式潜在新词集中的对象分别进行过滤操作对于每个潜在新词,若其频次大于第一阀值,则将该潜在新词作为所述中文新词。优选地,本技术主要是针对单字串模式和词缀模式两种,分别采用不同的方法实现。对于单字串新词来说,每个单字串新词(New Word)是由单个的汉字组成的,本专利技术主要讨论NWll (1+1形式,由单个汉字与单个汉字组成的新词),NWlll (1+1+1形式,由三个连续的单个汉字组成的新词),或NWllll (1+1+1+1形式,由四个连续的单字组成的新词);对于词缀模式的新词来说,它是由单个汉字和前/后缀词语组成,本专利技术主要讨论NW12 (1+2形式,由一个单字紧跟着一个二元词语组成),NW13 (1+3形式,由一个单字紧跟着一个三元词语组成)或NW21 (2+1形式,由一个二元词紧跟着一个单字组成),NW31 (3+1形式,由一个三元词紧跟着一个单字组成)。本专利技术采用网络上的新闻标题作为新词识别的语料库,采用统计和规则相结合的方法进行新词识别。对新词的以上两种形成模式,即单字串新词和词缀新词,分别对这两类新词进行识别。·通过本专利技术,大大提高了中文分词技术的正确率,使中文分词工具的词典的创建变得相对容易实现,从而能够应对中文语言在各个领域不断涌现的新词。本专利技术在一定程度上突破了中文信息处理领域上的瓶颈,同时对于输入法细胞词库更新,机器翻译,语言学应用和信息检索等领域都有较为重要的意义。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显 图I示出根据本专利技术的一个具体实施方式的,中文新词自动识别的流程 图2示出根据本专利技术的第一实施例的,将某新闻网站的新闻标题作为短文本语料库,提取中文新词的流程图;以及 图3示出根据本专利技术的第二实施例的,根据成词概率,通过训练,得到首字词缀字典和尾字词缀字典的示意图。具体实施例方式现结合附图详细说明本专利技术的技术方案 图I示出根据本专利技术的一个具体实施方式的,中文新词自动识别控制方法的流程图。首先,执行步骤S101,对大规模的短文本进行分词。本专利技术采用短文本作为新词识别的语料库。在本实施例中,由于对一个网页新闻进行分析,所以抓取该网页上的新闻标题,将抓取的新闻标题用ICTCLAS进行分词。接下来,执行步骤S102,将新闻标题和分词后的新闻标题存入本地数据库中。本领域技术人员理解,具体的,在进行完上述步骤S102,即对大规模短文本进行中文分词后,首先将所述分词碎片通过物理磁盘存储手段存入数据库中。在本专利技术中,所述数据库的最大存储量远远满足所述分词碎片的存储,故不考虑溢出问题。然后,执行步骤S103,对分词碎片进行分析,查找碎片中的潜在新词,根据新词的形成方式建立获取潜在新词策略。本专利技术从新词形成的角度出发,将新词的形成方式分为两个部分,一是单字串潜新词,即NWl I,NWl 11,或NWl 111 ;二是词缀潜在新词,即NW12,NW13或者 NW21,NW31。接下来,执行步骤S104,提取单字串潜在新词,统计其出现的频次,存入单字串潜在新词集。首先提取单字串潜在新词对应的最长潜在新词,统计每个最长潜在新词出现的频次,然后根据最长潜在新词及其频次,提取最长潜在新词的每个子串,这些字串的长度都是大于等于2,即由两个及以上的汉字组成,然后统计每个子串的频次,存入单字串潜在新词集。进一步,本领域技术人员理解,所述最长潜在新词包括NW(i,j)= {^+1···Χ」},其中X为单个字,其中,i=0或者Xp1是非单字汉字,并且j=n或Xj+1是非单字汉字,其中,NW(i,j)为集合T= (X1X^Xr-XJ (l=〈i〈=n)的子集,T中任意的Xi都为中文单个汉字。针对所 述最长潜在新词提取所有子串的步骤包括如下步骤采用滑动窗口收集和统计所述最长潜在对象中的所有子串。然后,执行步骤S105,提取词缀模式潜在新词,统计其出现的频次,存入词缀模式潜新词集中。本领域技术人员理解,具体的,所述词缀模式的新词,其由单个汉字和前/后缀词语组成,至少包括如下形式中的任一种或任多种NW12形式,其由一个单字紧跟着一个二元词语组成,表现为1+2形式;NW13形式,其由一个单字紧跟着一个三元词语组成,表现为1+3形式;NW21形式,其由一个二元词紧跟着一个单字组成,表现为2+1形式;或者NW31形式,其由一个三元词紧跟着一个单字组成,表现为3+1形式。接下来,执行步骤S106本文档来自技高网...
【技术保护点】
一种中文单字串模式和词缀模式的新词自动识别技术及系统,通过分析短文本中出现新词的规律,基于大规模短文本语料库,自动识别短文本中的新词,其包括如下步骤:a.?对大规模短文本进行中文分词,并将每一条短文本的分词碎片相适应地存储;b.?对于每一条短文本的分词碎片进行分析,查找碎片中的单字串潜在新词以及词缀模式潜在新词;c.?对于单字串潜在新词,首先提取单字串潜在新词对应的最长潜在新词,统计每个最长潜在新词出现的频次,存入单字串潜在新词集;然后根据最长潜在新词及其频次,提取最长潜在新词的每个子串,统计每个子串的频次,存入单字串潜在新词集;d.?对于词缀模式的潜在新词,提取每个词缀模式潜在新词,统计每个词缀模式的频次,存入词缀模式潜新词集中;e.?对于所述的单字串潜在新词集和词缀模式潜在新词集中的对象分别进行过滤操作;f.?对于每个潜在新词,若其频次大于第一阀值,则将该潜在新词作为所述中文新词。
【技术特征摘要】
【专利技术属性】
技术研发人员:吕钊,蒋鑫,曹艳娇,
申请(专利权)人:华东师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。