一种自动解析英文文本语法现象的方法技术

技术编号：25397987 阅读：62 留言：0更新日期：2020-08-25 23:02

本发明专利技术提出了一种对英文文本进行自动解析语法现象的方法，用于对输入的自然语言进行词法和句法两方面的语法分析。根据本发明专利技术的语法解析方法，能够结合词性标注、依存句法关系以及正则表达式，实现将输入句子自动解析语法现象，结果映射到我们自己总结归纳的常见的语法知识点组成的语法树上，将所有满足条件的语法现象都输出。基于本发明专利技术，可以实现对各种类型的英文读物或英文文本进行相关语法现象的自动解析输出，同时支持语法现象相关内容的扩展开发，如统计文本的句型总数、句型种类及分布，词性特点等。其主要可以应用于初级英语学习者的辅导工作，帮助解析课文文本出现的语法现象，以及相关考试题文本等等，但不仅限于此，涉及需要学习语法现象的英语文本都可以应用。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动解析英文文本语法现象的方法
本专利技术属于自然语言处理
，具体涉及一种基于语法知识的语法现象解析，能够自动解析输入句子的关于词法和句法的语法现象。
技术介绍
英语作为全球应用最为普及的一门语言，引起了越来越多人的重视，国内对于英语的教育也愈加普及深化，但英语作为我们第二语言，相比较于母语学习，难免会增添难度，传统的老师教学也并不能完全保障，在我们需要适当的英语语法指导时给予及时的帮助，这时，学习者往往需要一个能够随时辅助他们学习英语文本语法的学习工具。目前，现有的自然语言处理领域相关的研究，大部分都是针对语言学和教育学上的理论研究，而对于软件应用方面涉及较少。而理论研究的相关成果，又具有特定领域的标记，没有专业知识的人很难理解相关结果，所以，理论研究成果并不能很好的直接适用于英语教育。自然语言处理领域中，现有的相关理论研究能够对自然语言句子中的单词进行词性标注、引用解析、命名实体识别、依存句法分析以及句子情感分析等等。对自然语言中的句子进行语法分析，虽然涉及到词性标注和依存关系分析，但其中得到的词性标注类别仅有36种，如：JJ表示形容词，CC表示连词，DT表示限定词等，词性标注的类别较宽泛，不能很好的得到单词相关语法现象，同理，依存句法分析类别有49种，如det(x,y):determiner表示x是名词短语，y是其限定词，两者的依赖关系为限定关系，也不能很好的映射出句子的相关语法现象。现有技术缺少将已有的自然语言处理的相关理论成果进行再处理，直接能够得到常见的语法现象的...

【技术保护点】
1.一种自动解析英文文本语法现象的方法，其特征在于：包括数据预处理模块、语法树映射模块以及结果输出模块三大模块：/n数据预处理模块利用自然语言处理包，对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等；/n语法树映射模块将预处理模块得到的结果进行再处理，利用词性标记结果和依存句法分析结果，结合正则表达式，实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上；/n结果输出模块主要将映射得到的语法现象，根据用户制定的选择策略输出，也可以全部输出。/n

【技术特征摘要】
1.一种自动解析英文文本语法现象的方法，其特征在于：包括数据预处理模块、语法树映射模块以及结果输出模块三大模块：
数据预处理模块利用自然语言处理包，对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析等；
语法树映射模块将预处理模块得到的结果进行再处理，利用词性标记结果和依存句法分析结果，结合正则表达式，实现所得结果映射到我们自己总结归纳的常见语法组成的语法树上；
结果输出模块主要将映射得到的语法现象，根据用户制定的选择策略输出，也可以全部输出。

2.根据权利要求1所述的数据预处理模块，具体处理流程为：
A.用任意的语法分析工具，对自然语言文本进行句子分割、字符标记、词性标注、命名实体识别、单词原型解析以及句子依存关系分析，得到英语文本断句之后的结果，存为列表sentences
B.遍历列表sentences，对每一个句子sentence先调用依存句法分析方法得到树形结构的分析结果，存为dependency，然后对句子中每个单词进行标记，记为token，得到每个token代表的单词形式word，word对应的单词原型lemma，词性标记结果pos，以及命名实体识别结果ner
C.由上述结果整理得到句子和单词的信息组，两者分别包含[文本text，依存关系dependency]和[id号，word，词性标注pos，原型lemma，命名实体识别ner]，作为下一模块语法树映射模块的输入。

3.根据权利要求1所述的语法树映射模块，其中模块包括词法分析和句法分析两部分，词法分析又细化为普通单词的词法分析以及依赖句法的词法分析两部分。

4.根据权利要求1所述的结果输出模块，主要流程如下：
A.用户根据自己需要制定选择策略，策略的制定可以是语法树上的任意一个节点或者任意节点的组合要求，更特殊的，可以选择一棵子树，即某一大类的输出，如：选择策略，词法中定义为形容词，句法中定义为基本句型和句子种类
B.根据用户定义的选择策略，进行语法现象的筛选。我们遍历语法树映射后的所有...

【专利技术属性】
技术研发人员：戴翰波，李辉，王丽，
申请(专利权)人：武汉慧人信息科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人