基于单词网络和语法模板的领域语言处理方法及存储介质技术

技术编号:38347909 阅读:11 留言:0更新日期:2023-08-02 09:27
本发明专利技术公开了一种基于单词网络和语法模板的领域语言处理方法,涉及信息处理技术领域,具体是指输入一段自然语言文本经处理后输出可执行程序或专业领域内的操作指令的过程。专业领域可以是初等数学计算、信息资料检索、常用知识问答、智能家居设备控制、工业机器人任务管理等。领域语言处理方法包括领域语言库、可执行程序库和文本处理方法。领域语言库包括单词网络库、句型模板库、动作类型库、命令类型库。文本处理方法包括切词算法、释词算法、匹配算法、归纳算法、映射算法、实例化方法、编译算法。本发明专利技术具有可以广泛适配到多种专业领域、迁移训练成本低、不依赖于初始收集大量数据集并且能够保障精准匹配等优点。据集并且能够保障精准匹配等优点。据集并且能够保障精准匹配等优点。

【技术实现步骤摘要】
基于单词网络和语法模板的领域语言处理方法及存储介质


[0001]本专利技术涉及信息处理
,具体涉及一种基于单词网络和语法模板的领域语言处理方法及计算机可读存储介质。

技术介绍

[0002]语言文字的信息处理是人们在现代日常生活工作中广泛要面对的脑力劳动。由于面向人类的自然语言系统的高度复杂性、不确定性以及海量内容的不可枚举性,同时受限于当前人工智能技术的发展尚且非常不完善,大部分语言文字的处理仍然无法完全自动化进行。因此,在当前的情况下,研究在特定的领域或场景内的语言文字的处理及应用,将具备更大的可行性与现实意义。
[0003]语言文字的处理方法自从20世纪60年代以来历经几十年的发展,已经有了较多的基础理论的积累,主流的处理方法可分为以下几种思路:
[0004]1)基于关键词匹配的思路;
[0005]2)基于句法

语义分析的思路;
[0006]3)基于大数据统计分析的思路。
[0007]第一种关键词匹配的思路优点在于实现简单快速,对计算量要求低,但是缺点也很明显,该类方法往往产生匹配很不精准、难以应对歧义等问题,能够适应的场景和解决的问题比较有限。第二种思路,包括词法分析、句法分析、语义分析等方法论,代表性的成果例如国家973重大研究项目中针对汉语言文字的特点创造的HNC(Hierarchical Network Concepts,概念层次网络)理论(参考文献[1]:黄曾阳,概念层次网络(HNC)理论.北京市,中国科学院声学研究所,2000

09

22.)等。第三种思路是近些年来获得了显著发展的一条思路,包括IBM沃森研究中心提出的基于马尔可夫链的n元语法模型(参考文献[2]:Brown P F,Della Pietra V J,Desouza P V,et al.Class

based n

gram models of natural language[J].Computational linguistics,1992,18(4):467

480.),以及基于神经网络和机器学习的一些训练模型(参考文献[3]:Saqib Alam.基于机器学习算法的自然语言处理研究[D].大连理工大学,2020.)等。后两种思路在机器翻译、信息检索、自动问答等自然语言处理的场景取得了重要的应用进展突破。
[0008]在学术方面,不少研究者针对特定应用领域提出了一些创新的语言模型或处理技术。例如,Sarikaya等人使用深度信念网络(Deep Belief Network,DBN)从无监督数据中学习到一个多层生成模型,然后利用该模型生成的特征作为前馈神经网络参数的初始化权重,并使用反向传播算法对前馈神经网络进行微调,最终分类准确率超过了传统模型(参考文献[4]:Sarikaya R,Hinton G E,Ramabhadran B.Deep belief nets for natural language call

routing[C]//2011IEEE International conference on acoustics,speech and signal processing(ICASSP).IEEE,2011:5680

5683.)。赵笑天等人针对智能对话客服的应用领域设计了基于管道方法的任务型交互系统,使用了双向长短时记忆网络、深度强化学习模型等(参考文献[5]:赵笑天.任务型对话关键技术及其应用研究[D].哈
尔滨工业大学,2019.)。Mikolov等人针对特定名词和短语提取的应用领域基于连续skip

gram模型显著提升了表达向量的准确率和训练速度,并由此在该领域取得了较大的进展(参考文献[6]:Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].Advances in neural information processing systems,2013,26.)。于墨等人针对句子级的结构同时利用语言学特征和表示学习两个研究方向上的成果提出了基于丰富特征的结构表示合成模型(FCM,Feature

rich Compositional embedding Model)(参考文献[7]:于墨.自然语言句子级结构表示的建模与学习[D].哈尔滨工业大学,2016.)。
[0009]在专利方面,特定的自然语言处理模型及方法也被运用到了诸多专业领域。例如,专利技术专利CN103514157B(李新德,张秀龙,王丰羽,等.一种面向室内智能机器人导航的路径自然语言处理方法,2014.)通过分析句法结构和名词实体关系推理方法实现了在室内智能机器人导航领域的应用。专利技术专利CN111582622B(郭九霞,杨昌其,唐志星,等.基于自然语言处理方法的空中交通管理系统危险分析方法,2020.)通过相关分类算法和模型评价实现了在空中交通管理领域的应用。专利技术专利CN101231641B(万小军,王栋,黄小江,等.一种自动分析互联网上热点主题传播过程的方法及系统,2010.)通过时间排序和相似度比较的方法实现了在互联网热点主题分析领域的应用。专利技术专利CN105095665B(陈志永,朱华玲,黄玉丽.一种中文诊断信息的自然语言处理方法及系统,2018.)通过建立本体词典和字符串切分匹配的方法实现了在中文疾病诊断领域的应用。专利技术专利CN105955981B(范玉顺,郝予实,郜振锋,等.一种基于需求分类和主题分析的个性化旅行包推荐方法,2019.)通过需求分类提取、相似性匹配、优化推荐算法等技术的组合实现了在个性化旅行推荐领域的应用。专利技术专利CN107526831B(王雅圣,魏建生,张旸.一种自然语言处理方法和装置,2020.)通过确定极性特征向量和预设分类器的方法实现了在情感分析领域的应用。专利技术专利CN112699669B(柯昆.流行病学调查报告的自然语言处理方法,装置及存储介质,2022.)通过意群划分和主干信息提取相结合的方法实现了在流行病学调查领域的应用。专利技术专利CN112184525B(张宏俊,蒋红军,黄海霞,等.通过自然语义分析实现智能匹配推荐的系统及方法,2021.)通过生成企业画像和拆解政策适用范围及评价标准的方法实现了在智慧政务领域的应用。
[0010]在商业方面,许多大型互联网公司和智能手机公司都推出了自家的语言处理系统或软件,例如苹果公司的Siri智能语音助理,微软公司的Cortana智能语音助理,亚马逊公司的Alexa智能语音助理,以及国内厂商有阿里巴巴公司的天猫精灵智能音箱,小米公司的小爱音箱,百度公司的小度音箱等。另外值得一提的是OpenAI公司推出的Chat

GPT交互式对话机器人,针对通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单词网络和语法模板的领域语言处理方法,其特征在于,所述领域语言处理方法是指输入一段自然语言文本经过计算机程序处理后输出可执行程序或专业领域内的操作指令的过程,所述领域语言处理方法包括领域语言库、可执行程序库和文本处理方法;所述领域语言库包括单词网络库、句型模板库、动作类型库、命令类型库;所述单词网络库包括多个单词、多个词型和单词与词型间的多对多对应关系网络,所述单词是由一个或多个字符组成的文本字符串,所述词型是指单词的一种确定性内在含义;每一个所述单词可以对应到一个或多个所述词型,每一个所述词型也可以对应到一个或多个单词;所述句型模板库包括多个句型模板,所述句型模板包括句型和句型的组成方式,所述句型是由多个句型单元组成的序列,所述句型单元可以是词型、词型分组、句型、句型分组这四种元素之一或者由该四种元素组成的并集,所述词型分组包括多个词型,所述句型分组包括多个句型;所述动作类型库包括多个动作类型,所述动作类型包括类型名称、注释说明和动作参数列表,所述动作参数列表由零个、一个或多个动作参数组成,所述动作参数可以指定参数取值类型;所述命令类型库包括多个命令类型,所述命令类型包括类型名称、模板程序名称、注释说明和命令参数列表,所述命令参数列表由零个、一个或多个命令参数组成,所述命令参数可以指定参数取值类型;所述可执行程序库是指由多个可在操作系统上直接执行的二进制程序及其目录索引组成的数字信息库,或者由多个可被其它第三方计算机程序解释执行的专业领域内的操作指令及其目录索引组成的数字信息库;在所述可执行程序库的目录索引中可以查询到所述命令类型的模板程序名称;所述文本处理方法包括通过切词算法将语句实例转化为单词序列、通过释词算法将单词序列转化为词型序列、通过匹配算法将词型序列转化为句型模板、通过归纳算法将句型模板转化为动作类型、通过映射算法将动作类型转化为命令类型、通过实例化方法将动作类型和命令类型分别转化为动作实例和命令实例,以及通过编译算法将命令实例转化为可执行程序或操作指令;所述语句实例是一段由用户输入的自然语言文本;所述动作实例和所述命令实例具有确定性的参数取值。2.根据权利要求1所述的基于单词网络和语法模板的领域语言处理方法,其特征在于,所述的文本处理方法还包括缓存算法;所述缓存算法将系统历史数据临时或永久性存储下来,在未来再次遇到相同或类似场景时将系统历史数据读取出来以省略执行部分处理步骤;所述系统历史数据包括语句实例、动作实例、命令实例、句型模板、命令类型及其之间的互相对应关系;所述缓存算法将语句实例转化为句型模板时,所述文本处理方法可以省略切词算法、释词算法和匹配算法;所述缓存算法将语句实例转化为动作实例时,所述文本处理方法可以省略切词算法、释词算法、匹配算法、归纳算法和由动作类型到动作实例的实例化方法;所述缓存算法将动作实例转化为命令实例时,所述文本处理方法可以省略映射算法和实例化方法;所述缓存算法将句型模板转化为命令类型时,所述文本处理方法可以省略归纳算法和映射算法。
3.根据权利要求1所述的基于单词网络和语法模板的领域语言处理方法,其特征在于,所述的切词算法,通过切割语句实例中的文本字符串获得一个或多个单词序列,所述单词序列包括多个单词以及每个单词的顺序位置,所述单词包括文本单词与数字单词,所述文本单词可以在所述单词网络中查询到;所述单词网络具有以单词开头字符为键值查询单词的索引;所述切词算法包括以下步骤:切词步骤一:以文本字符串的第N个字符为键值查询到单词网络中的一个或多个单词形成一个单词子集合;切词步骤二:对于上一步骤中的单词子集合中的每一个单词,计算该单词的字符数量M并执行下一步骤;切词步骤三:在文本字符串中截取区间[N,N+M](包括第N个字符但不包括第N+M个字符)的子字符串,若该...

【专利技术属性】
技术研发人员:董华来李瑞史莹晶
申请(专利权)人:电子科技大学长三角研究院湖州
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1