一种基于支持向量机的越南语词性标注方法技术

技术编号:13670419 阅读:105 留言:0更新日期:2016-09-07 16:04
本发明专利技术涉及一种基于支持向量机的越南语词性标注方法,属于自然语言处理技术领域。本发明专利技术包括步骤:首先对形成的越南语句子级的词性标注语料进行越南语词的词性标注建模,得到越南语支持向量机词性标注模型;从越南语分词句子级语料库中随机选取测试语料通过已建好的越南语支持向量机词性标注模型进行词性标注,得到越南语词的词性标注的参数序列结果。本发明专利技术对越南语词实现了有效的词性标注,为词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑;本发明专利技术词性标注的正确率高,取得了很好的标注效果。

【技术实现步骤摘要】

本专利技术涉及一种基于支持向量机的越南语词性标注方法,属于自然语言处理

技术介绍
越南语词性标注(POS tagging)是在自然语言信息处理中继分词之后的一个重要的环节;是越南语组块分析、越南语语义分析等工作中主要的环节;是其他高层应用的基础,起着极其重要的作用。作为这些应用的预处理,词性标注中出现的错误将级联传入到后续处理中,直接影响到机器翻译、信息抽取以及问答系统等应用的性能。词性标注任务是一个典型的序列标注任务,对其深入研究也将促进相关任务。因此,本专利技术的研究是非常有意义的。
技术实现思路
本专利技术提供了一种基于支持向量机的越南语词性标注方法,以用于解决目前越南语词性标注系统正确率不高、数据稀疏、线性不可分等问题。本专利技术的技术方案是:一种基于支持向量机的越南语词性标注方法,所述基于支持向量机的越南语词性标注方法的具体步骤如下:Step1、首先对形成的越南语句子级的词性标注语料进行越南语词的词性标注建模,得到越南语支持向量机词性标注模型;所述步骤Step1中词性标注建模的具体步骤如下:Step1.1、首先利用爬虫程序,从互联网上爬取出网页信息;Step1.2、把爬取出的网页信息,经过过滤处理,构建出越南语文本语料库;所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;Step1.2.2、对得到的有效网页进行去重、去噪音等预处理操作。Step1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从数据库中取出已分好词的越南语句子级的语料,然后人工标记分好词的越南语句子级的语料,得到标注好的越南语句子级的词性标注语料,并且存入到数据库中;所述步骤Step1.4的具体步骤:Step1.4.1、从存有越南语分词句子级语料库的数据库中取出已分好词的越南语句子级的语料;Step1.4.2、人工标记越南语句子级的已分好词的句子,得到越南语句子级的词性标注语料。Step1.5、根据越南语语言特性,从步骤Step1.4中越南语句子级的词性标注语料中提取越南语词性标注特征,提取的越南语词性标注特征包括词性及词性上下文特征、词语及其上下文特征、词的拼写特征、标识拼写特征、前缀特征、后缀特征、重复特征;Step1.6、根据提取的越南语词性标注特征,制定支持向量机中所需要的基本特征模板训练样式;Step1.7、把Step1.4中抽取用于训练的越南语句子级的词性标注语料,根据支持向量机中所需要的基本特征模板训练样式,用支持向量机模型进行训练,得到越南语支持向量机词性标注模型。Step2、从越南语分词句子级语料库中随机选取测试语料通过已建好的越南语支持向量机词性标注模型进行词性标注,得到越南语词的词性标注的参数序列结果。所述步骤Step1.5中:1)提取的词性及词性上下文特征:这主要是考虑到当前词的前后词的词性对当前词的词性的影响,在这里我们考虑当前词的前两个词的词性(p-2)和后一个词性(p-1)对当前标注的影响。2)选取的词语及其上下文特征:这主要考虑到当前词的前一个或者多个词和后一个或者多个词对当前词的影响,在这里我们考虑当前词的前三个词(w-3)和后两个词(w2)对当前词的影响。3)选取的词的拼写特征:词的拼写特征是每一种语言中都存在的特征。这拼写特征主要包括:词中的字母大写特征;词的构成特征;标点符号特征。4)选取的另一种拼写特征标识拼写特征:这种拼写特征只是一种标识,首字母大写的音节用字母“A”表示,音节以小写字母开头的用小写字母“a”表示,数字特征用数字“0”表示,其它的特征用下划线“_”标识。5)选取的前缀特征和后缀特征:越南语中也有前缀和后缀的词,很多这种词缀来自于汉越词。表1由上面表格可以看到,一些词语加上同样的前缀或者后缀,有着同样的词性。这样的特征是通过在一个词的前面放上前缀或者后面放上后缀形成的。6)选取的重复特征:在语言学上,重复是形态学里面的内容,一个新词的形成主要是通过重复整个词或者词的部分音节。叠词现象跟合成它的音节或者词有相同的词性,如表2所示。表2越南语中有很多像这样的叠词;每个词可以按照下面的一些规则形成叠词。很明显,这些叠词不可能都保在词典中。为了克服这样的困难,我们抽取了这种叠词的特征。特征如下:如果当前词是可以构成叠词的音节或者词,可以设置特征为“Y”,否则设置为“N”。本专利技术的有益效果是:1、本专利技术的基于支持向量机的越南语词性标注方法,对越南语词性标注工作采用支持向量机进行分析,可以最大化分类边际,通过实验比较发现本专利技术取得了很好的效果;2、本专利技术的基于支持向量机的越南语词性标注方法,与现有的词性标注工具相比,本专利技术词性标注方法的正确率提高了;3、本专利技术的基于支持向量机的越南语词性标注方法,对越南语词进行有效的标记,为词法分析、句法分析、语义分析、信息抽取、信息检索和机器翻译等工作提供强有力的支撑。附图说明图1为本专利技术中的总的流程图;图2为本专利技术中的建模流程图;图3为本专利技术中的词性标注应用的流程图。具体实施方式实施例1:如图1-3所示,一种基于支持向量机的越南语词性标注方法,所述基于支持向量机的越南语词性标注方法的具体步骤如下:Step1、首先对形成的越南语句子级的词性标注语料进行越南语词的词性标注建模,得到越南语支持向量机词性标注模型;所述步骤Step1中词性标注建模的具体步骤如下:Step1.1、首先利用爬虫程序,从互联网上爬取出网页信息;Step1.2、把爬取出的网页信息,经过过滤处理,构建出越南语文本语料库;所述步骤Step1.2的具体步骤为:Step1.2.1、对爬取的网页信息进行有效的过滤,去除无效网页;Step1.2.2、对得到的有效网页进行去重、去噪音等预处理操作。Step1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从数据库中取出已分好词的越南语句子级的语料,然后人工标记分好词的越南语句子级的语料,得到标注好的越南语句子级的词性标注语料,并且存入到数据库中;所述步骤Step1.4的具体步骤:Step1.4.1、从存有越南语分词句子级语料库的数据库中取出已分好词的越南语句子级的语料;Step1.4.2、人工标记越南语句子级的已分好词的句子,得到越南语句子级的词性标注语料。Step1.5、根据越南语语言特性,从步骤Step1.4中越南语句子级的词性标注语料中提取越南语词性标注特征,提取的越南语词性标注特征包括词性及词性上下文特征、词语及其上下文特征、词的拼写特征、标识拼写特征、前缀特征、后缀特征、重复特征;Step1.6、根据提取的越南语词性标注特征,制定支持向量机中所需要的基本特征模板训练样式;Step1.7、把Step1.4中抽取用于训练的越南语句子级的词性标注语料,根据支持向量机中
所需要的基本特征模板训练样式,用支持向量机模型进行训练,得到越南语支持向量机词性标注模型。Step2、从越南语分词句子级语料库中随机选取测试语料通过已建好的越南语支持向量机词性本文档来自技高网
...

【技术保护点】
一种基于支持向量机的越南语词性标注方法,其特征在于:所述基于支持向量机的越南语词性标注方法的具体步骤如下:Step1、首先对形成的越南语句子级的词性标注语料进行越南语词的词性标注建模,得到越南语支持向量机词性标注模型;Step2、从越南语分词句子级语料库中随机选取测试语料通过已建好的越南语支持向量机词性标注模型进行词性标注,得到越南语词的词性标注的参数序列结果。

【技术特征摘要】
1.一种基于支持向量机的越南语词性标注方法,其特征在于:所述基于支持向量机的越南语词性标注方法的具体步骤如下:Step1、首先对形成的越南语句子级的词性标注语料进行越南语词的词性标注建模,得到越南语支持向量机词性标注模型;Step2、从越南语分词句子级语料库中随机选取测试语料通过已建好的越南语支持向量机词性标注模型进行词性标注,得到越南语词的词性标注的参数序列结果。2.根据权利要求1所述的基于支持向量机的越南语词性标注方法,其特征在于:所述步骤Step1中词性标注建模的具体步骤如下:Step1.1、首先利用爬虫程序,从互联网上爬取出网页信息;Step1.2、把爬取出的网页信息,经过过滤处理,构建出越南语文本语料库;Step1.3、根据越南语分词工具进行越南语文本语料库的语料分词,并进行人工校对,形成越南语分词句子级语料库,并把越南语分词句子级语料库的语料存放到数据库中;Step1.4、从数据库中取出已分好词的越南语句子级的语料,然后人工标记分好词的越南语句子级的语料,得到标注好的越南语句子级的词性标注语料,并且存入到数据库中;Step1.5、根据越南语语言特性,从步骤Step...

【专利技术属性】
技术研发人员:郭剑毅刘艳超余正涛线岩团毛存礼王红斌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1