一种自动解析英文文本语法现象的方法技术

技术编号:25397987 阅读:62 留言:0更新日期:2020-08-25 23:02
本发明专利技术提出了一种对英文文本进行自动解析语法现象的方法,用于对输入的自然语言进行词法和句法两方面的语法分析。根据本发明专利技术的语法解析方法,能够结合词性标注、依存句法关系以及正则表达式,实现将输入句子自动解析语法现象,结果映射到我们自己总结归纳的常见的语法知识点组成的语法树上,将所有满足条件的语法现象都输出。基于本发明专利技术,可以实现对各种类型的英文读物或英文文本进行相关语法现象的自动解析输出,同时支持语法现象相关内容的扩展开发,如统计文本的句型总数、句型种类及分布,词性特点等。其主要可以应用于初级英语学习者的辅导工作,帮助解析课文文本出现的语法现象,以及相关考试题文本等等,但不仅限于此,涉及需要学习语法现象的英语文本都可以应用。

【技术实现步骤摘要】
一种自动解析英文文本语法现象的方法
本专利技术属于自然语言处理
,具体涉及一种基于语法知识的语法现象解析,能够自动解析输入句子的关于词法和句法的语法现象。
技术介绍
英语作为全球应用最为普及的一门语言,引起了越来越多人的重视,国内对于英语的教育也愈加普及深化,但英语作为我们第二语言,相比较于母语学习,难免会增添难度,传统的老师教学也并不能完全保障,在我们需要适当的英语语法指导时给予及时的帮助,这时,学习者往往需要一个能够随时辅助他们学习英语文本语法的学习工具。目前,现有的自然语言处理领域相关的研究,大部分都是针对语言学和教育学上的理论研究,而对于软件应用方面涉及较少。而理论研究的相关成果,又具有特定领域的标记,没有专业知识的人很难理解相关结果,所以,理论研究成果并不能很好的直接适用于英语教育。自然语言处理领域中,现有的相关理论研究能够对自然语言句子中的单词进行词性标注、引用解析、命名实体识别、依存句法分析以及句子情感分析等等。对自然语言中的句子进行语法分析,虽然涉及到词性标注和依存关系分析,但其中得到的词性标注类别仅有36种,如:JJ表示形容词,CC表示连词,DT表示限定词等,词性标注的类别较宽泛,不能很好的得到单词相关语法现象,同理,依存句法分析类别有49种,如det(x,y):determiner表示x是名词短语,y是其限定词,两者的依赖关系为限定关系,也不能很好的映射出句子的相关语法现象。现有技术缺少将已有的自然语言处理的相关理论成果进行再处理,直接能够得到常见的语法现象的技术,而且,仅从目前得到的理论成果,不能直接明了的得到所需要的语法现象,仅有较宽泛的单词词性标注和依存句法分析,结果较笼统,不能与平常见到的英语语法相统一起来。因此,自动对英文文本进行语法现象的解析,具有很强的现实意义。
技术实现思路
鉴于上述情况,本专利技术提出一种英文文本自动解析语法现象的方法,用于对输入的自然语言进行词法和句法两方面的语法分析。根据本专利技术的语法解析方法,能够结合词性标注、依存句法关系以及正则表达式,实现将输入句子自动解析语法现象,结果映射到我们自己总结归纳的常见的语法知识点组成的语法树上,将所有满足条件的语法现象都输出。对于英文文本的自动解析过程,包括数据预处理模块、语法树映射模块以及结果输出模块三大模块,具体技术路线如下所述:(一)数据预处理模块,利用自然语言处理包,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等,具体处理流程如下:A.得到英语文本断句之后的结果,存为列表sentencesB.遍历列表sentences,对每一个句子sentence先调用依存句法分析方法得到树形结构的分析结果,存为dependency,然后对句子中每个单词进行标记,记为token,得到每个token代表的单词形式word,word对应的单词原型lemma,词性标记结果pos,以及命名实体识别结果nerC.由上述结果整理得到句子和单词的信息组,两者分别包含[文本text,依存关系dependency]和[id号,word,词性标注pos,原型lemma,命名实体识别ner],作为下一模块语法树映射模块的输入(二)语法树映射模块,将预处理模块得到的结果进行再处理,利用词性标记结果和依存句法分析结果,结合正则表达式,实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上,主要包括词法分析和句法分析词法分析过程大致如下:A.读入单词信息组[id号,word,词性标注pos,原型lemma,命名实体识别ner],以及句子信息组[文本text,依存关系dependency]B.调用遍历我们自己归纳的复合名词词汇表,进行复合名词的识别,以及其主谓一致现象的识别C.词性标注类别分组,将语法树中的词法类别(包括名词、数词、形容词、副词、常见限定词、代词、动词、介词、冠词、连词)与词性标注结果对应起来D.每类词法类别下,利用句子的依赖关系进行判断,查看树结构形成的依赖关系记录中,该单词的父节点具有的词性,实现单词功用的解析E.单词对应形态变化的语法,利用word和原型lemma的对比给出F.单词词组固定搭配的识别,不涉及语法的,利用原型lemma的正则匹配实现G.涉及语法的固定搭配的识别,利用词性标注pos和单词word或原型lemma实现H.语法树词法现象中最后叶子节点细化到某个词的解析,先用单词原型lemma进行识别,然后利用词性标注pos锁定词性分支,最后根据上下文特征细化到最后一层匹配句法分析过程大致如下:A.读入句子信息组[文本text,依存关系dependency]B.利用词性标注为VB.*(动词的各种变化形态)实现时态或非谓语形式的解析C.利用文本内容进行正则表达式匹配,结合匹配单词的词性标注结果pos,识别不同句型的标志词或引导词,达到句子种类的判别D.进而根据不同句型进行细化分析,主要利用每个单词之间的依赖关系和单词及词性的正则匹配,这里的正则匹配主要是(id)lemma和pos的结构组合E.记录依赖关系,进行句子结构的分析,查看该句拥有的依赖关系,判断基本句型和句子语序下的语法现象(三)结果输出模块主要将映射得到的语法现象,根据用户制定的选择策略输出,主要流程如下:A.用户根据自己需要制定选择策略,策略的制定可以是语法树上的任意一个节点或者任意节点的组合要求B.根据用户定义的选择策略,进行语法现象的筛选。遍历语法树映射后的所有语法现象,查看每一条语法现象是否包含用户选择的语法树中的节点组合中的节点,如果包含则是满足条件的语法现象,反之,该条语法现象不满足用户定义的选择策略C.将上一步得到的结果整理输出,返回给用户附图说明图1是本专利技术方法的总体流程图;图2是本专利技术实例词法分析过程的具体处理流程图;图3是本专利技术实例句法分析过程的具体处理流程图。具体实施方式下面按照附图来说明本专利技术的实施例。本专利技术的自动解析语法现象方法的具体实施方式分为三个模块,包括数据预处理模块、语法树映射模块以及结果输出模块三大模块(见图1)其中,数据预处理模块利用自然语言处理包,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等;语法树映射模块将预处理模块得到的结果进行再处理,利用词性标记结果和依存句法分析结果,结合正则表达式,实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上;结果输出模块主要将映射得到的语法现象,根据用户制定的选择策略输出,也可以全部输出。模块一:数据预处理模块采用任意的语法分析工具,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析,以stanfordcorenlp语言分析工具为例,开始之后本文档来自技高网
...

【技术保护点】
1.一种自动解析英文文本语法现象的方法,其特征在于:包括数据预处理模块、语法树映射模块以及结果输出模块三大模块:/n数据预处理模块利用自然语言处理包,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等;/n语法树映射模块将预处理模块得到的结果进行再处理,利用词性标记结果和依存句法分析结果,结合正则表达式,实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上;/n结果输出模块主要将映射得到的语法现象,根据用户制定的选择策略输出,也可以全部输出。/n

【技术特征摘要】
1.一种自动解析英文文本语法现象的方法,其特征在于:包括数据预处理模块、语法树映射模块以及结果输出模块三大模块:
数据预处理模块利用自然语言处理包,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等;
语法树映射模块将预处理模块得到的结果进行再处理,利用词性标记结果和依存句法分析结果,结合正则表达式,实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上;
结果输出模块主要将映射得到的语法现象,根据用户制定的选择策略输出,也可以全部输出。


2.根据权利要求1所述的数据预处理模块,具体处理流程为:
A.用任意的语法分析工具,对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析,得到英语文本断句之后的结果,存为列表sentences
B.遍历列表sentences,对每一个句子sentence先调用依存句法分析方法得到树形结构的分析结果,存为dependency,然后对句子中每个单词进行标记,记为token,得到每个token代表的单词形式word,word对应的单词原型lemma,词性标记结果pos,以及命名实体识别结果ner
C.由上述结果整理得到句子和单词的信息组,两者分别包含[文本text,依存关系dependency]和[id号,word,词性标注pos,原型lemma,命名实体识别ner],作为下一模块语法树映射模块的输入。


3.根据权利要求1所述的语法树映射模块,其中模块包括词法分析和句法分析两部分,词法分析又细化为普通单词的词法分析以及依赖句法的词法分析两部分。


4.根据权利要求1所述的结果输出模块,主要流程如下:
A.用户根据自己需要制定选择策略,策略的制定可以是语法树上的任意一个节点或者任意节点的组合要求,更特殊的,可以选择一棵子树,即某一大类的输出,如:选择策略,词法中定义为形容词,句法中定义为基本句型和句子种类
B.根据用户定义的选择策略,进行语法现象的筛选。我们遍历语法树映射后的所有...

【专利技术属性】
技术研发人员:戴翰波李辉王丽
申请(专利权)人:武汉慧人信息科技有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1