维吾尔语词性标注方法技术

技术编号：10168320 阅读：177 留言：0更新日期：2014-07-02 10:45

本发明专利技术公开了维吾尔语词性标注方法，1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型，此方法特征提取灵活，准确率高；3.构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率；4．提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5．提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6. 在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。本发明专利技术较高效率地解决了维吾尔语的词性标注问题。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了，1.制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2.在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型，此方法特征提取灵活，准确率高；3.构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率；4．提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5．提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6.?在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。本专利技术较高效率地解决了维吾尔语的词性标注问题。【专利说明】
本专利技术涉及语言信息处理技术，特别是。
技术介绍
在国民经济和社会信息化的今天，每天都有海量信息在生成，存储和传播，人类面临了前所未有的信息膨胀，如何从海量信息中寻找自己所需的信息，又如何把千差万别的信息转换成自己所能理解的信息成为人们共同关注的问题，也是信息处理所需解决的问题。目前自然语言处理已经成为信息处理领域中的一个引人注目的研究热点。新疆维吾尔自治区是多民族聚居的地区，在现有的2000多万人口中，少数民族人口有1300多万，占总人口的60%。目前，维吾尔文、哈萨克文、柯尔克孜文是和汉文同时使用的官方语言文字。在信息化社会的今天，全疆范围的政府机构、检察院、法院、基层乡镇政府、报社、出版社等日程工作中频繁使用地方民族语言的机构对维吾尔语的信息处理技术提出了很高的要求。少数民族语言的信息处理问题的解决是方便广大民族群众和提高政府部门工作效...

【技术保护点】
一种维吾尔语词性标注方法，其特征是：1. 制订维吾尔语词性标注集及百万词次的维吾尔语语料库；2. 在一级标注中选取基于条件随机场方法构建维吾尔语词性标注模型，此方法特征提取灵活，准确率高；3. 构建正确标注规则库及无歧义词性标记词典和专有名词词典，构建基于规则和词典的一级词性标注纠正算法，进一步提高一级词性标注的准确率； 4．提供基于词干提取的词性标注方法，进一步增加标注单词的覆盖率；5．提供二级词性标注统计模型，增加标注单词的覆盖率和成功率；6. 在二级标注中通过无歧义词词典和专有名词词典标注，再经过词干提取标注及统计模型标注，准确率极高的实现二级词性标注。

【技术特征摘要】

【专利技术属性】
技术研发人员：尼加提·纳吉米，买合木提·买买提，帕肉克·司地克，马斌，
申请(专利权)人：新疆电力信息通信有限责任公司，
类型：发明
国别省市：新疆;65

全部详细技术资料下载我是这个专利的主人