【技术实现步骤摘要】
一种自适应中文新词识别方法与系统
本专利技术属于汉语言文字信息处理领域,涉及中文新词识别、语义分析、自动翻译、信息检索、中文分词等相关
,特别涉及一种基于偶然判定和关联判定的中文新词识别方法及系统。
技术介绍
随着互联网和人工智能技术的发展,人们对于语义分析、自动翻译、信息提取和检索等应用的需求不断增加,这些需求都需要以中文词语作为处理的基本单元。但与拉丁语系、罗马语系中的语言不同,中文不以空格作为词汇的分隔标识,因此在对中文文本处理时,需要根据词典等现有词库对文本做分词处理。然而,中文表达十分灵活,基于现有词语及汉字,可以通过派生、复合、缩写等方法产生具有独立含义的新词。特别在互联网迅速发展的今天,世界各国交流增加,新的人名、地名,机构组织的名称、缩写,以及各种网络用语大量出现,这些实体名称或词汇在现有词库中并不存在,词库词量不足(Out-of-Vocabulary)的情况经常出现。要准确处理中文信息,就需要有效识别新词,对现有词库及时更新。然而,中文并不像英语,在没有先验知识的情况下,不能通过特殊标 ...
【技术保护点】
1.一种自适应中文新词识别方法,其特征在于,包括如下步骤:/n文本初始化步骤:用于对输入文本text做结构化处理,获得一个包含原有中文汉字并保持原文本中中文汉字相邻关系、间隔关系的宽字符序列;/n非偶然共现判定步骤:使用二项分布或使用泊松分布近似表征一对汉字前后相邻出现的概率分布,并基于给定的非偶然共现显著性水平α
【技术特征摘要】
1.一种自适应中文新词识别方法,其特征在于,包括如下步骤:
文本初始化步骤:用于对输入文本text做结构化处理,获得一个包含原有中文汉字并保持原文本中中文汉字相邻关系、间隔关系的宽字符序列;
非偶然共现判定步骤:使用二项分布或使用泊松分布近似表征一对汉字前后相邻出现的概率分布,并基于给定的非偶然共现显著性水平αp确定文本text中的所有非偶然共现的相邻汉字对;
统计关联性判定步骤:给定关联性显著性水平αk,判定文本text中相邻中文字符的关联程度,筛选出具有内部强关联的中文字符串;所述强关联是指在给定显著性水平下,中文字符串内部相邻字符出现与否不满足统计意义上的相互独立;
现有词库过滤步骤:基于现有词典,在满足非偶然共现和内部强关联的字符串中筛选出尚未在词典中出现的中文字符串。
2.根据权利要求1所述的一种自适应中文新词识别方法,其特征在于:所述的文本初始化具体步骤如下:
步骤1.1构建一个元素为string类型的序列charList,将其置为空,转步骤1.2;
步骤1.2根据文档text的编码方式,采用宽字符格式从头开始逐个读取text中的信息w:如果w是汉字,将w以元素的形式添加到序列charList尾部;否则,w是中文标点、英文字符、数字、其他符号,这时将占位符“$”添加到序列charList尾部;待text文档全部处理完后,转步骤1.3;
步骤1.3从序列charList第一个位置开始,按当前位置元素和下一相邻元素的构成情况逐步整理序列charList:如果序列charList当前元素和下一个元素都是“$”,则删除下一个元素“$”,继续判定;如果序列charList当前元素是“$”且下一元素是汉字,则将当前位置后移一位;如果当前位置元素是汉字,则将当前位置后移一位;执行该操作直至当前位置是charList尾部最后一个位置;
文本初始化结束后,将获得一个只包含汉字和“$”构成的宽字符序列charList,且在序列charList中的汉字间最多只有一个“$”间隔。
3.根据权利要求1所述的一种自适应中文新词识别方法,其特征在于:所述非偶然性共现判定步骤如下:
步骤2.1统计序列charList中所有相邻汉字对<ci,cj>的出现次数,i,j为汉字序号,并由LocalCount(ci,cj)记录;用N记录序列charList中所有相邻汉字对的出现次数,转步骤2.2;
步骤2.2由charPairSet记录序列charList中所有相邻汉字对构成集合,转步骤2.3;
步骤2.3遍历charPairSet中的所有相邻汉字对,对给定相邻汉字对<ci,cj>,由汉字频率查询系统CharFreq按下公式估算<ci,cj>在相邻位置的出现概率Freq(ci,cj):
Freq(ci,cj)=CharFreq(ci)*CharFreq(cj)
并根据下述公式计算<ci,cj>在文本text中出现n次的累积概率F(ci,cj):
给定非偶然性显著性水平αp,αp取10-12至10-2之间的任意小数,如果F(ci,cj)≥1-αp,则将相邻汉字对<ci,cj>加入备选相邻汉字对集合NCP;
备选相邻汉字对集合NCP={<ci,cj>|F(ci,cj)≥1-αp},它是判定新词基础,最终备选新词中的所有相邻汉字对都应该在NCP中。
4.根据权利要求1所述的一种自适应中文新词识别方法,其特征在于:所述统计关联性判定步骤如下:
步骤3.1初始化语义单元序列semanticUnitList=charList,初始化相邻语义对集semanticPairSet=NCP;转步骤3.2;
步骤3.2根据定义,构建semanticPairSet的前语义单元集PreUnitSet、后语义单元集PostUnitSet;令待计算关联性的相邻语义对集SP为空,将语义对统计函数spNum设为空,全部语义对统计值为0,totalNum=0;转步骤3.3;
步骤3.3遍历semanticUnitList中的每一个相邻语义对<X,Y>,初次执行时X和Y都是汉字,统计与X、Y相关的频次信息:将相邻语义对<X,Y>出现次数增一,即spNum(X,Y)加一;将以X为前语义单元的相邻语义对出现次数增一,即spNum(X,#)加一;将以Y为后语义单元的相邻语义对出现次数增一,即spNum(#,Y)加一;将全部相邻语义对出现的总次数增一,totalNum加一;如果由X的最后一个汉字x和Y的第一个汉字y构成的相邻汉字对<x,y>在NCP中,则将<X,Y>加入集合SP中;待遍历结束,转步骤3....
【专利技术属性】
技术研发人员:蒋东辰,唐帅,蒋翱远,牛颖,
申请(专利权)人:北京林业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。