【技术实现步骤摘要】
基于单词网络和语法模板的领域语言处理方法及存储介质
[0001]本专利技术涉及信息处理
,具体涉及一种基于单词网络和语法模板的领域语言处理方法及计算机可读存储介质。
技术介绍
[0002]语言文字的信息处理是人们在现代日常生活工作中广泛要面对的脑力劳动。由于面向人类的自然语言系统的高度复杂性、不确定性以及海量内容的不可枚举性,同时受限于当前人工智能技术的发展尚且非常不完善,大部分语言文字的处理仍然无法完全自动化进行。因此,在当前的情况下,研究在特定的领域或场景内的语言文字的处理及应用,将具备更大的可行性与现实意义。
[0003]语言文字的处理方法自从20世纪60年代以来历经几十年的发展,已经有了较多的基础理论的积累,主流的处理方法可分为以下几种思路:
[0004]1)基于关键词匹配的思路;
[0005]2)基于句法
‑
语义分析的思路;
[0006]3)基于大数据统计分析的思路。
[0007]第一种关键词匹配的思路优点在于实现简单快速,对计算量要求低,但是缺点也很明显,该类方法往往产生匹配很不精准、难以应对歧义等问题,能够适应的场景和解决的问题比较有限。第二种思路,包括词法分析、句法分析、语义分析等方法论,代表性的成果例如国家973重大研究项目中针对汉语言文字的特点创造的HNC(Hierarchical Network Concepts,概念层次网络)理论(参考文献[1]:黄曾阳,概念层次网络(HNC)理论.北京市,中国科学院声学研究所,2000
...
【技术保护点】
【技术特征摘要】
1.一种基于单词网络和语法模板的领域语言处理方法,其特征在于,所述领域语言处理方法是指输入一段自然语言文本经过计算机程序处理后输出可执行程序或专业领域内的操作指令的过程,所述领域语言处理方法包括领域语言库、可执行程序库和文本处理方法;所述领域语言库包括单词网络库、句型模板库、动作类型库、命令类型库;所述单词网络库包括多个单词、多个词型和单词与词型间的多对多对应关系网络,所述单词是由一个或多个字符组成的文本字符串,所述词型是指单词的一种确定性内在含义;每一个所述单词可以对应到一个或多个所述词型,每一个所述词型也可以对应到一个或多个单词;所述句型模板库包括多个句型模板,所述句型模板包括句型和句型的组成方式,所述句型是由多个句型单元组成的序列,所述句型单元可以是词型、词型分组、句型、句型分组这四种元素之一或者由该四种元素组成的并集,所述词型分组包括多个词型,所述句型分组包括多个句型;所述动作类型库包括多个动作类型,所述动作类型包括类型名称、注释说明和动作参数列表,所述动作参数列表由零个、一个或多个动作参数组成,所述动作参数可以指定参数取值类型;所述命令类型库包括多个命令类型,所述命令类型包括类型名称、模板程序名称、注释说明和命令参数列表,所述命令参数列表由零个、一个或多个命令参数组成,所述命令参数可以指定参数取值类型;所述可执行程序库是指由多个可在操作系统上直接执行的二进制程序及其目录索引组成的数字信息库,或者由多个可被其它第三方计算机程序解释执行的专业领域内的操作指令及其目录索引组成的数字信息库;在所述可执行程序库的目录索引中可以查询到所述命令类型的模板程序名称;所述文本处理方法包括通过切词算法将语句实例转化为单词序列、通过释词算法将单词序列转化为词型序列、通过匹配算法将词型序列转化为句型模板、通过归纳算法将句型模板转化为动作类型、通过映射算法将动作类型转化为命令类型、通过实例化方法将动作类型和命令类型分别转化为动作实例和命令实例,以及通过编译算法将命令实例转化为可执行程序或操作指令;所述语句实例是一段由用户输入的自然语言文本;所述动作实例和所述命令实例具有确定性的参数取值。2.根据权利要求1所述的基于单词网络和语法模板的领域语言处理方法,其特征在于,所述的文本处理方法还包括缓存算法;所述缓存算法将系统历史数据临时或永久性存储下来,在未来再次遇到相同或类似场景时将系统历史数据读取出来以省略执行部分处理步骤;所述系统历史数据包括语句实例、动作实例、命令实例、句型模板、命令类型及其之间的互相对应关系;所述缓存算法将语句实例转化为句型模板时,所述文本处理方法可以省略切词算法、释词算法和匹配算法;所述缓存算法将语句实例转化为动作实例时,所述文本处理方法可以省略切词算法、释词算法、匹配算法、归纳算法和由动作类型到动作实例的实例化方法;所述缓存算法将动作实例转化为命令实例时,所述文本处理方法可以省略映射算法和实例化方法;所述缓存算法将句型模板转化为命令类型时,所述文本处理方法可以省略归纳算法和映射算法。
3.根据权利要求1所述的基于单词网络和语法模板的领域语言处理方法,其特征在于,所述的切词算法,通过切割语句实例中的文本字符串获得一个或多个单词序列,所述单词序列包括多个单词以及每个单词的顺序位置,所述单词包括文本单词与数字单词,所述文本单词可以在所述单词网络中查询到;所述单词网络具有以单词开头字符为键值查询单词的索引;所述切词算法包括以下步骤:切词步骤一:以文本字符串的第N个字符为键值查询到单词网络中的一个或多个单词形成一个单词子集合;切词步骤二:对于上一步骤中的单词子集合中的每一个单词,计算该单词的字符数量M并执行下一步骤;切词步骤三:在文本字符串中截取区间[N,N+M](包括第N个字符但不包括第N+M个字符)的子字符串,若该...
【专利技术属性】
技术研发人员:董华来,李瑞,史莹晶,
申请(专利权)人:电子科技大学长三角研究院湖州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。