维吾尔语词性标注方法技术

技术编号:10168320 阅读:177 留言:0更新日期:2014-07-02 10:45
本发明专利技术公开了维吾尔语词性标注方法,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型,此方法特征提取灵活,准确率高;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6. 在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。本发明专利技术较高效率地解决了维吾尔语的词性标注问题。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型,此方法特征提取灵活,准确率高;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.?在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。本专利技术较高效率地解决了维吾尔语的词性标注问题。【专利说明】
本专利技术涉及语言信息处理技术,特别是。
技术介绍
在国民经济和社会信息化的今天,每天都有海量信息在生成,存储和传播,人类面临了前所未有的信息膨胀,如何从海量信息中寻找自己所需的信息,又如何把千差万别的信息转换成自己所能理解的信息成为人们共同关注的问题,也是信息处理所需解决的问题。目前自然语言处理已经成为信息处理领域中的一个引人注目的研究热点。新疆维吾尔自治区是多民族聚居的地区,在现有的2000多万人口中,少数民族人口有1300多万,占总人口的60%。目前,维吾尔文、哈萨克文、柯尔克孜文是和汉文同时使用的官方语言文字。在信息化社会的今天,全疆范围的政府机构、检察院、法院、基层乡镇政府、报社、出版社等日程工作中频繁使用地方民族语言的机构对维吾尔语的信息处理技术提出了很高的要求。少数民族语言的信息处理问题的解决是方便广大民族群众和提高政府部门工作效率的有力保障。因此维吾尔语的信息化处理也得到了广泛范围内的极大重视。在自然语言处理中,词是能够独立活动的有意义的最小的语言成分,因此它是语言中表达内容的基本单位。词性标注(Part-of-Speech Tagging)的主要目的是给句中每一个词赋以正确的分类标记,它是词法分析的一个重要部分,词性标注的难点是正确判断兼类词的词类以及生词词类的判别。每一种语言都具有各自的词法体系。故词法分析是对某一种语言进行自然语言处理时不可或缺的基础环节,也是计算机理解语言的第一步。因此词法分析在机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究中具有重要的地位。维吾尔语词法分析技术同样是对维吾尔语进行深入研究和智能化处理不可或缺的核心技术,是维吾尔语与其它语言或机器会话必定要经过的重要环节。维吾尔语是黏着语言,属于阿尔泰语系突厥语族,在国内属于同类语系的有哈萨克语、柯尔克孜语,在国外有土耳其语、乌兹别克语、土库曼语等。在这些语言当中,除了土耳其语在词法分析中展开一定的工作之外,其他语种的词法分析、分析技术仍处于初级阶段。维吾尔语词法分析技术的研究,将对这些国内外语言的研究具有很大的促进作用。词性标注作为词法分析的核心内容,更是研究工作的重中之重。词性标注综述:国内外词性标注的研究方法主要有三种:基于规则的方法、基于转换错误驱动的方法、基于统计的方法。基于规则的词性标注方法是最早被提出的一种词性标注方法,其基本思想是:按兼类词搭配关系和上下文语境构建词类消歧规则。。如美国布朗大学的Greence和Rubinl971年开发的TAGGIT词类标注系统。国内刘开瑛按兼类词搭配关系构造了词类识别规则库,并结合词类同现概率实现了汉语词性标注系统。随着标注语料库规模的逐步增大,可利用资源越来越多,具备可以从已标注的文本中提取规则显得更为科学而实际。因此,学者们提出了基于机器学习的规则自动提取方法。EBrill (1995)提出了基于转换的学习器(TBL)和错误驱动的学习方法来进行词性标注处理。。国内周明等人提出了相应的改进方法。另外,李晓黎等人尝试了利用数据采掘方法获取汉语词性标注规则的方法。随着自然语言处理研究的逐渐热门,受到国外研究的启发,国内学者们根据汉语词性标注任务的特点展开广泛而深入的研究。孙茂松等人对基于隐Markov模型的汉语词类白动标注进行实验。对基于统计的汉语词性标注方法进行了分析与改进。基于统计和规则的方法拥有各自的优势,周强提出了一种规则和统计方法相结合的词性标注算法。国内外大量学者对英语、汉语进行了大量深入而详细的研究,但针对维吾尔语的研究基本上处于空白。词性标注作为词法分析技术的重要组成部分,对维吾尔语的进一步信息化处理具有举足轻重的地位。词性标注系统性能的高低直接决定了维吾尔语句法分析乃至机器翻译、信息检索、信息安全、语音识别与合成、文本校对等研究的效率。
技术实现思路
本专利技术的目的在于提供一种,较高效率地解决了维吾尔语的词性标注问题,实现了维吾尔语自然语言处理时不可或缺的基础环节,为维吾尔语的词法分析研究打下了坚实的基础,是维吾尔语的机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究成为可能,同时对同属突厥语系的土耳其语、乌兹别克语等语言的研究具有很大的促进作用。本专利技术的目的是这样实现的:一种,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型,此方法特征提取灵活,准确率高;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率;4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。本专利技术(混合策略的)指采用混合策略对维吾尔语句子中的每一个词赋以正确的分类标记。其特点是:使用了基于词典、基于规则、基于统计方法相结合的分两级进行词性标注,第一级选取了最适合于维吾尔语序列标注的条件随机场方法构建了维吾尔语词性标注的统计模型,提出了基于无歧义规则和词典的以及词性标记纠正方法,第二级提出了词典、规则、形态标志、最大熵模型等方法相结合的词性二级标注方法,此系统在实际应用中性能较好,达到了可用水平。本专利技术涉及维吾尔语文本中的的词性标注技术,属于自然语言处理中的词法分析领域;在目前市场上,这种采用混合策略,使用基于词典、基于规则、基于统计方法对维吾尔语文本进行较为准确的词性标注的系统,在国内尚属首例。本专利技术的有益效果是:较高效率地解决了维吾尔语的词性标注问题,实现了维吾尔语自然语言处理时不可或缺的基础环节,为维吾尔语的词法分析研究打下了坚实的基础,是维吾尔语的机器翻译、信息检索、信息安全、语音识别与合成、文本校对等诸多领域的研究成为可能,同时对同属突厥语系的土耳其语、乌兹别克语等语言的研究具有很大的促进作用。【专利附图】【附图说明】下面将结合附图对本专利技术作进一步说明。图1是本专利技术混合策略的维吾尔语词性标注系统的结构流程图。【具体实施方式】一种,1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型,此方法特征提取灵活,准确率高;3.构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级本文档来自技高网
...

【技术保护点】
一种维吾尔语词性标注方法,其特征是:1. 制订维吾尔语词性标注集及百万词次的维吾尔语语料库;2. 在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型,此方法特征提取灵活,准确率高;3. 构建正确标注规则库及无歧义词性标记词典和专有名词词典,构建基于规则和词典的一级词性标注纠正算法,进一步提高一级词性标注的准确率; 4.提供基于词干提取的词性标注方法,进一步增加标注单词的覆盖率;5.提供二级词性标注统计模型,增加标注单词的覆盖率和成功率;6.  在二级标注中通过无歧义词词典和专有名词词典标注,再经过词干提取标注及统计模型标注,准确率极高的实现二级词性标注。

【技术特征摘要】

【专利技术属性】
技术研发人员:尼加提·纳吉米买合木提·买买提帕肉克·司地克马斌
申请(专利权)人:新疆电力信息通信有限责任公司
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1