一种最小生成树统计融合的汉语依存句法分析方法技术

技术编号:16644640 阅读:53 留言:0更新日期:2017-11-26 17:03
本发明专利技术涉及一种最小生成树统计融合的汉语依存句法分析方法,属于自然语言处理技术领域。本发明专利技术首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。本发明专利技术对句子的分析提供一种精确、高效、便捷的分析方案,不仅节约了分析的时间,且有效提高了句法分析的正确率。本发明专利技术的可行性高并适用于一般自然语言的句法分析中。

A method of Chinese Dependency Parsing Based on minimum spanning tree statistical fusion

The present invention relates to a Chinese dependency parsing method based on minimum spanning tree statistical fusion, which belongs to the field of Natural Language Processing technology. The invention firstly tested sentence preprocessing analysis, including: first to establish the frequency dependency relation table; secondly, word segmentation, POS tagging and dependency relation probability statistics; then, each word of the word after the share as the node, and join a virtual node, between two nodes dependent negative logarithm probability as the connection of the two node cost; then, using minimum spanning tree generation method to generate dependency relation tree; finally, the analysis of the sentence dependency relation tree. The present invention provides an accurate, efficient and convenient analysis scheme for sentence analysis, which not only saves the time of analysis, but also improves the accuracy of parsing effectively. The invention has high feasibility and is suitable for syntax analysis of general natural language.

【技术实现步骤摘要】
一种最小生成树统计融合的汉语依存句法分析方法
本专利技术涉及一种最小生成树统计融合的汉语依存句法分析方法,属于自然语言处理

技术介绍
语言学家乔姆斯基证明了世界上实际只有一种人类语言。而且,多年前就有人提出世界上所有语言必属于三种类型(SVO、SOV以及VSO)之一,例如汉语、英语语种属于SVO类型,日语语种属于SOV类型,但句子成分都离不开主谓宾的主干成分,句法分析在机器翻译、信息抽取中扮演着很重要的角色。句法分析在自然语言处理中有着重要作用。因此如何高效,准确的进行汉语依存句法的分析就很重要了。
技术实现思路
本专利技术提供了一种最小生成树统计融合的汉语依存句法分析方法,以用于简化汉语依存句法分析的复杂度;提高汉语依存句法分析的精确度。本专利技术的技术方案是:一种最小生成树统计融合的汉语依存句法分析方法,首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该本文档来自技高网...
一种最小生成树统计融合的汉语依存句法分析方法

【技术保护点】
一种最小生成树统计融合的汉语依存句法分析方法,其特征在于:首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。

【技术特征摘要】
1.一种最小生成树统计融合的汉语依存句法分析方法,其特征在于:首先对输入的待测句子进行预处理分析,具体包括:首先建立依存关系频率表;其次,分词、词性标注、依存关系概率统计;然后,把分词后分得的各个词作为节点,并加入一个虚节点,两节点间依存关系概率的负对数作为连接两节点的代价;接着,再利用最小生成树生成方法来生成依存关系树;最后分析出该句子的依存关系树。2.根据权利要求1所述的最小生成树统计融合的汉语依存句法分析方法,其特征在于:所述方法的具体步骤如下:Step1.1、对待测句子进行预处理分析:输入句子,通过分词工具进行分词及词性标注;Step1.2、Step1.1的句子经过分词后得到词,把分得的词作为节点并加入一个虚节点;Step2:确定连接两节点的代价:Step2.1、根据Step1中得到的节点,并从依存网络语料库建立每两个节点间的依存关系概率表;Step2.2、统计每两个节点间的依存关系概率,并对依存关系概率求负对数,其便为连接两节点的代价;Step3:最小生成树生成,具体方法步骤如下:Step3.1、建立节点集合V,建立边集合为E,E包含所有连接节点的边;S...

【专利技术属性】
技术研发人员:邵玉斌黄美思龙华杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1