基于依存句法树的知识解析系统及方法技术方案

技术编号:28052041 阅读:24 留言:0更新日期:2021-04-14 13:14
本发明专利技术提出一种基于依存句法树的知识解析系统及方法。一种基于依存句法树的知识解析系统,包括:知识库模块和解析模块。本发明专利技术提出的基于依存句法树的知识解析方法使中文语境中的知识点能够被明确定义,以供精准解析。知识库可实时动态维护,清晰可控,对于不合理的问题部分可直接定位并解决,不再像传统深度学习模型如同“黑箱子”一般不可解析。使知识解析场景不再受中文语法/句法的多样性及复杂性所局限,只要保证知识库的资源足够优质且全面,就可极大限度地满足场景应用需求。就可极大限度地满足场景应用需求。就可极大限度地满足场景应用需求。

【技术实现步骤摘要】
基于依存句法树的知识解析系统及方法


[0001]本专利技术涉及自然语言处理领域,尤其涉及一种基于依存句法树的知识解析系统及方法。

技术介绍

[0002]依存句法分析是自然语言处理当中的重要组成部分。依存句法能够体现自然语言的内在逻辑规律,是一种突破语种制约、存在于各个语系的句法理论。“依存句法”的概念最早是印度的语言学家Panini在公元前4世纪提出来的,最初的意图是针对语法、句法、语义与依存形态进行分门别类的研究,1959年法国语言学家Lucien Tesniere出版的《结构句法基础》一书一直被认为是现代依存句法的理论基础,1970年Robinson基于依存句法提出了四大依存公理,为依存句法奠定了理论结构基础,这四条公理是:(1)单纯节点条件:仅包含底层叶子节点;(2)单一父节点条件:依存树中所有的非根节点都有一个且只有一个父节点;(3)独根节点条件:一颗完整的依存树只包含一个根节点,其他所有节点依赖于根节点;(4)互斥条件:依存树中兄弟节点的前驱关系和父子节点的从属关系之间是互斥的,也就是说如果两个节点之间存在着支配与被支配的关系,则它们之间可能是没有前驱关系的。依存句法分析通过建立形式化的数学模型,设计有效的算法,利用计算机分析和处理句子,将其从词序列形式转换为句法树形式,从而捕捉句子内部结构和词语之间的依存关系,以揭示其句法结构,其主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。计算机进行依存句法分析,即是对给定输入句子的词序列,分析各个词之间的搭配关系和整个句子的结构,并得到一棵依存句法分析树。依存句法分析树就是依存句法分析结果的表示形式。目前主流的依存句法研究主要集中在数据驱动的依存句法分析方法上,即在训练数据集上进行迭代学习,从而得到依存句法分析器,主要有两种主流方法:基于移进-规约的依存分析方法(Transition-based Dependency Parsing)和基于图的依存分析方法(Graph-based Dependency Parsing)。前者是将依存句法分析书的生成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列问题;后者是将依存句法分析问题转化为从完全有向图中寻找最大生成树的问题。
[0003]然而,现有技术中的依存句法分析方法存在以下问题:
[0004](1)语言学过度的依赖“就近原则”,语言学家通过观察总结出了人类在语言组织上存在“就近”原则,也就是说人们在组织语言时会主动将修饰成分放在中心成分周围。然而自然语言不是完全按照这样一个原则存在的,比如,对于长距离依存关系的识别,因为“就近原则”实质上已经蕴含了短距离的依存关系相比较长距离的依存关系具有更大的可能性、更高的优先级,而并列结构中,通常每个成分在语义层次上是具有同等的地位,甚至可以相互交换位置也不会影响到语义关系,这就导致分析的准确性下降。
[0005](2)通过依存句法来分析判断文本非常依赖庞大而优良的语料库,建立语料库最大的任务就是作对齐,对齐效率越高,准确率越高,用处就越大。而现有的语料库存在一些
问题,例如,整体发展不平衡,主要表现在书面语语料和口语语料库数量相差悬殊,是由于口语语料的搜集和取样过程较为复杂和繁琐。语料库的准确率无法保证,在庞大的语料库中包含了很多有待修改的语句,根本原因是缺少有效的自查方法。这些问题都反映出了对于灵活、准确建立语料库的迫切需求。

技术实现思路

[0006]为了解决现有技术中的上述问题,本申请提出的技术方案如下:
[0007]根据本专利技术的一个方面,公开了一种基于依存句法树的知识解析系统,包括:知识库模块和解析模块;其中知识库模块包括:
[0008]分词模块,根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
[0009]依存句法树生成模块,汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
[0010]简化处理模块,保留依存句法树生成模块中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
[0011]计算模块,计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库;
[0012]其中,解析模块包括:
[0013]句法树处理模块,将用户输入的文本经依存句法树处理得到对应的分词结果;
[0014]毗邻特征对比模块,对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与毗邻特征获取模块中核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
[0015]根据本专利技术的一个方面,还公开了一种基于依存句法树的知识解析方法,包括以下步骤:
[0016]步骤S1、根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;
[0017]步骤S2、汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;
[0018]步骤S3、保留步骤S2中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;
[0019]步骤S4、计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库;
[0020]步骤S5、将用户输入的文本经依存句法树处理得到对应的分词结果;
[0021]步骤S6、对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。
[0022]与现有技术相比,本专利技术具有如下有益效果:
[0023]1.使中文语境中的知识点能够被明确定义,以供精准解析。
[0024]2.知识点能够被高效且明确地储存,即,知识点不再是独立且模糊地储存,而是相对于特定语境、特定词语进行了具体的储存,由此提升知识点检索的精确度。
[0025]3.对用于描述特定语境下的知识点的知识树(毗邻特征)进行一系列的筛减处理,根据各个依存关系(例如COO、ATT)的语言学特征进行量身定制。
[0026]4.使中文语境中的知识点能够被精准解析,例如用户输入“茅台酒以大米做成酒曲”,解析系统能够根据知识库中预存的关于“茅台酒”、“酒曲”等语境的知识点,对用户输入的文本进行知识纠错,告知“大米”应当被纠正为“小麦”。
[0027]5.知识库可实时动态维护,清晰可控,对于不合理的问题部分可直接定位并解决,不再像传统深度学习模型如同“黑箱子”一般不可解析。
[0028]6.使知识解析场景不再受中文语法/句法的多样性及复杂性所局限,只要保证知识库的资源足够优质且全面,就可极大限度地满足场景应用需求。
附图说明
[0029]图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于依存句法树的知识解析系统,其特征在于,包括:知识库模块和解析模块;其中,知识库模块包括:分词模块,根据已经预训练完毕的依存句法模型对自然语言语句进行分词处理并标明各成分之间的句法依存关系;依存句法树生成模块,汇总涵盖目标知识点的语句,并利用依存句法模型得到所有语句的依存句法树,并标注核心词;简化处理模块,保留依存句法树生成模块中获得的所述依存句法树中的核心词,简化处理冗余词及其周边结构;计算模块,计算得到各个核心词的毗邻特征,将各个知识点的核心词对应的毗邻特征存存储形成知识库;其中,解析模块包括:句法树处理模块,将用户输入的文本经依存句法树处理得到对应的分词结果;毗邻特征对比模块,对比获取的各个词语的毗邻特征和知识库中各个毗邻特征,如果匹配度大于第一阈值,则判断知识库中的毗邻特征所对应的词语是否与毗邻特征获取模块中核心词的毗邻特征近似,如果是则输出解析结果,如果不是则提示知识库中的毗邻特征所对应的词语。2.根据权利要求1所述的基于依存句法树的知识解析系统,其特征在于:所述分词模块中,各词之间的依存句法关系是定向的。3.根据权利要求1所述的基于依存句法树的知识解析系统,其特征在于:所述分词模块中,每个句子至少存在一个根源词,对于除根源词之外的任意词,仅有一个父节点和至少一个子节点。4.根据权利要求1所述的基于依存句法树的知识解析系统,其特征在于:所述简化处理模块中,如果两个冗余词存在依存关系,则将这两个冗余词合并为一个新的冗余词;如果两个词的依存关系为并列关系,则共享这两个词各自的父节点和子节点。5.一种基于依存句法树的知识解析方法,其特征在于,包括以下步骤:步骤S1、根据已经预训练完毕的依存句法模型对自然语言...

【专利技术属性】
技术研发人员:裴正奇王树徽朱斌斌刘潇段必超于秋鑫余志炜
申请(专利权)人:深圳前海黑顿科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1