一种汉语新动词识别方法技术

技术编号:15616615 阅读:115 留言:0更新日期:2017-06-14 03:30
本发明专利技术一种汉语新动词识别方法,包括对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus;识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb;验证集合Tmp_Verb中的新动词,形成结果集合VerbResult;输出新动词集合VerbResult.本发明专利技术提出了一种利用汉语种子词典中的词语的信息,对从汉语语料中获得新动词进行识别。在经过160GB的纯文本语料的测试验证后,本发明专利技术的系统获得了41012个新的汉语动词。经过准确性分析,结果显示96.9%的新动词为正确的汉语动词。

【技术实现步骤摘要】
一种汉语新动词识别系统和方法
本专利技术涉及汉语自然语言处理、汉语动词自动识别领域,特别是涉及一种汉语新动词自动识别系统和方法。
技术介绍
随着互联网的发展,尤其是移动互联网的快速发展,网民在使用汉语时常常不满足于传统的汉语词典,而是自己专利技术一些新的词语。这给汉语方面的应用系统的开发带来新的挑战。另一方面,几乎所有的汉语应用系统都涉及动词,即动词是语言应用中的关键。事实上,自从格文法(casegrammar)提出以来,以动词为中心的各种方法和系统不断涌现。例如,我国的中文树库的研制、美国的UPenn树库的研制,均离不开动词的识别。同时,在汉语词典增补过程中,经常会手工收集新的词语,包括新的动词。如果有好的新词语收集工具,那么无疑会对汉语词典修订具有很大的益处。张春霞等人已经对主动词(mainverb)进行了研究,但是在现有的动词基础上展开的,不涉及新的动词识别问题。周丹等人也研究了从Web汉语语料中获取新的动词。但是,他们方法基于纯粹的统计计算,因此识别精度和召回率都不能支撑实际的应用。
技术实现思路
本专利技术所要解决的技术问题:通过对大语料处理和分析,快速而又准确地从中识别出新的本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/55/201510846963.html" title="一种汉语新动词识别方法原文来自X技术">汉语新动词识别方法</a>

【技术保护点】
一种汉语新动词识别系统,其特征在于:包括对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus的模块A;识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb的模块B;验证集合Tmp_Verb中的新动词,形成结果集合VerbResult的模块C;输出新动词集合VerbResult的模块D。

【技术特征摘要】
1.一种汉语新动词识别系统,其特征在于:包括对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus的模块A;识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb的模块B;验证集合Tmp_Verb中的新动词,形成结果集合VerbResult的模块C;输出新动词集合VerbResult的模块D。2.一种汉语新动词识别系统和方法,其特征在于:包括以下步骤步骤A,对原始训练语料库CNCorpus进行分词,形成分词语料库TCNCorpus:对CNCorpus中的每篇输入文本D进行分词,分词的工具采用开源的ICTCLAS系统;为了便于处理,分词后,将每篇文本按照句子标点符号进行分拆,形成不含有句子标点符号的简单句;因此,TCNCorpus每个句子的形式为Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每个Wi是一个汉语词、汉字、阿拉伯数字、英文单词或字母;posi是其对应的词性;步骤B,识别分词语料库TCNCorpus中的可能的新动词,形成结果集合Tmp_Verb:对TCNCorpus中的每条语句Si,对Si中的情形分别按照以下子步骤处理:步骤B1:如果Si中出现“Wi,1/posi,1Wi,2/vWi,3/vWi,4/posi,4”的子串,并且posi,1≠v,即posi,4不是v、f、a或d任何之一,那么将“Wi,2/vWi,3/v”放入Tmp_Verb中;所述“Wi,2/vWi,3/v”,表示将来自于Si的“Wi,2Wi,3”视着一个可能的新动词;步骤B2:如果Si中出现“Wi,1/posi,1Wi,2/vWi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d},即posi,3是f、a或者d之一,那么将“Wi,2/vWi,3/posi,3”放入Tmp_Verb中;步骤C:验证集合Tmp_Verb中的新动词,形成结果集合VerbResult。步骤B输出的新动词集合Tmp_Verb中的动词具有一定的正确性,但是仍然需要进一步地验证。为了确保所获取的新动词是准确的,我们将种子词典规定为由多个二...

【专利技术属性】
技术研发人员:王卫明符建辉
申请(专利权)人:镇江诺尼基智能技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1