当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于大量伪数据的贝叶斯词义消歧方法技术

技术编号:16587401 阅读:64 留言:0更新日期:2017-11-18 14:58
本发明专利技术具体涉及一种新的基于大量伪数据的贝叶斯词义消歧方法,主要解决了当前的词义消歧方法存在消歧效果差、获取消歧知识费时费力等问题。本首先利用依存句法分析器,对训练语料库中包含歧义词的训练实例进行句法分析,收集与歧义词具有依存关系的元组,然后利用机器翻译系统,查找在机器翻译语料库中包含该元组的例句。如此反复进行,将查找出的例句加入伪训练语料库,随后利用训练语料库和伪训练语料库,训练一个贝叶斯消歧模型,最后,利用该消歧模型决策歧义词的词义,可以在少量人工标注语料的基础上,有效缓解词义消歧所面临的数据稀疏问题,提高词义消歧的准确率,该方法具有广阔的发展前景。

A Bayesian word sense disambiguation method based on a large number of pseudo data

The invention relates to a new Bayesian word sense disambiguation method based on a large amount of pseudo data, which mainly solves the problems of poor disambiguation effect and time-consuming and difficult knowledge of acquiring disambiguation knowledge in the present word sense disambiguation method. The first use of dependency parser, syntactic parsing of the training corpus contains ambiguous words of training examples, collection and ambiguous words with dependency relation tuples, and then use Machine Translation search system, containing the tuple in Machine Translation in the corpus. So repeatedly, will find out the pseudo training corpus, and then use the training corpus and pseudo training corpus, training a Bayesian disambiguation model, finally, using the disambiguation decision model of the meaning of ambiguous word, can be based on a small amount of artificial corpus, effectively alleviate the data sparseness problem in word sense disambiguation faces and improve the accuracy of word sense disambiguation, this method has broad prospects for development.

【技术实现步骤摘要】
一种基于大量伪数据的贝叶斯词义消歧方法
本专利技术属于自然语言处理
,具体地说,涉及一种新的基于大量伪数据的贝叶斯词义消歧方法。技术背景词义消歧(WordSenseDisambiguation,WSD)是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在机器理解自然语言的过程中,当一个歧义词出现在特定的上下文中时,就会出现词语的歧义现象,尤其是在当前“信息爆炸”的互联网时代,词汇的歧义问题就显得更加严重。无论是汉语还是西方语言,一词多义的现象普遍存在。目前,基于语料库的词义消歧方法可分为有监督和无监督方法。无监督方法不需要训练语料,但该方法的消歧效果却不尽如人意。有监督方法的消歧效果要明显优于无监督方法,但是面临较为严重的数据稀疏问题。为了解决此问题,很多学者开始研究自动生成有标注语料的方法。利用字典和大规模无标注的语料库自动生成有标注数据,然后采用有监督方法训练消歧模型,进行消歧。但是该方法同样存在问题:获取大规模、高质量的训练语料库费时费力。该问题严重阻碍了有监督词义消歧方法的大规模应用。面对当前有监督词义消歧方法存在的问题,本专利技术专本文档来自技高网...
一种基于大量伪数据的贝叶斯词义消歧方法

【技术保护点】
一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:包括以下步骤:步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。

【技术特征摘要】
1.一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:包括以下步骤:步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。2.根据权利要求1所述的一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:所述步骤2中的机器翻译系统...

【专利技术属性】
技术研发人员:杨陟卓张虎李茹谭红叶陈千
申请(专利权)人:山西大学
类型:发明
国别省市:山西,14

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1