The invention relates to a new Bayesian word sense disambiguation method based on a large amount of pseudo data, which mainly solves the problems of poor disambiguation effect and time-consuming and difficult knowledge of acquiring disambiguation knowledge in the present word sense disambiguation method. The first use of dependency parser, syntactic parsing of the training corpus contains ambiguous words of training examples, collection and ambiguous words with dependency relation tuples, and then use Machine Translation search system, containing the tuple in Machine Translation in the corpus. So repeatedly, will find out the pseudo training corpus, and then use the training corpus and pseudo training corpus, training a Bayesian disambiguation model, finally, using the disambiguation decision model of the meaning of ambiguous word, can be based on a small amount of artificial corpus, effectively alleviate the data sparseness problem in word sense disambiguation faces and improve the accuracy of word sense disambiguation, this method has broad prospects for development.
【技术实现步骤摘要】
一种基于大量伪数据的贝叶斯词义消歧方法
本专利技术属于自然语言处理
,具体地说,涉及一种新的基于大量伪数据的贝叶斯词义消歧方法。技术背景词义消歧(WordSenseDisambiguation,WSD)是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在机器理解自然语言的过程中,当一个歧义词出现在特定的上下文中时,就会出现词语的歧义现象,尤其是在当前“信息爆炸”的互联网时代,词汇的歧义问题就显得更加严重。无论是汉语还是西方语言,一词多义的现象普遍存在。目前,基于语料库的词义消歧方法可分为有监督和无监督方法。无监督方法不需要训练语料,但该方法的消歧效果却不尽如人意。有监督方法的消歧效果要明显优于无监督方法,但是面临较为严重的数据稀疏问题。为了解决此问题,很多学者开始研究自动生成有标注语料的方法。利用字典和大规模无标注的语料库自动生成有标注数据,然后采用有监督方法训练消歧模型,进行消歧。但是该方法同样存在问题:获取大规模、高质量的训练语料库费时费力。该问题严重阻碍了有监督词义消歧方法的大规模应用。面对当前有监督词义消歧方法存在 ...
【技术保护点】
一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:包括以下步骤:步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。
【技术特征摘要】
1.一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:包括以下步骤:步骤1、采用依存句法分析器对训练语料库中的训练实例进行分析,收集与目标歧义词具有依存关系的元组;步骤2、将步骤1收集的依存元组输入机器翻译系统,获取包含该依存元组的双语例句,并将其加入伪训练语料库;步骤3、重复步骤1、2,对所有训练语料库中的训练实例进行处理,同时将所有不重复的双语例句加入伪训练语料库,直到没有新的双语例句加入伪训练语料库;步骤4、同时采用训练语料库和伪训练语料库训练贝叶斯消歧模型,最后利用贝叶斯消歧模型决策测试实例中歧义词的词义。2.根据权利要求1所述的一种基于大量伪数据的贝叶斯词义消歧方法,其特征在于:所述步骤2中的机器翻译系统...
【专利技术属性】
技术研发人员:杨陟卓,张虎,李茹,谭红叶,陈千,
申请(专利权)人:山西大学,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。