一种基于自然语言理解的智能取数系统及其方法技术方案

技术编号：21850831 阅读：37 留言：0更新日期：2019-08-14 00:23

本发明专利技术公开了一种基于自然语言理解的智能取数系统及其方法，包括用户自然语言交互模块、Search Engine、Schema Graph、Tokenizer、Tree Builder、SQL Generation，用户自然语言交互模块输送自然语言至外部分词器进行外部分段来分隔单词，Tokenizer识别每个分隔单词含义和将单词组合成短语，最终自动或与用户交互选择最佳组合和解释；Tree Builder根据Tokenizer内的节点序列构建Query Tree，SQL Generation则将Query Tree转化成SQL至数据库DB内、并反馈至用户自然语言交互模块内供用户参考，其技术方案要点为，能够支持更多的问句形式和支持更丰富的复杂查询，运用更少的信息可以在没有与用户交互的情况下在MAS数据集上达到更高的准确度。

An Intelligent Numbering System Based on Natural Language Understanding and Its Method

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言理解的智能取数系统及其方法
本专利技术涉及计算机科学领域，特别涉及一种基于自然语言理解的智能取数系统及其方法。
技术介绍
数据库的自然语言接口为人们提供了一种更简单、更符合习惯的方式来访问数据库，即使是缺乏计算机专业知识的人也可以通过该接口，使用自然语言查询的方式，轻松获取数据库中的数据。使用这样的查询方式，用户既不需要掌握复杂的结构化查询语言(如SQL)，也不需要了解数据库的表结构，然而数据库自然语言的接口构建一直是个难题，目前最主流的解决方案有NaLIR、ATHENA等。图1展示了NaLIR的系统架构，整个系统由三个主要部分组成：问句解析部分、交互式通信器和查询树翻译器部分。问句解析部分包含分析树节点映射器(parsetreenodemapper)和分析树结构调整器(parsetreestructureAdjustor)，负责将自然语言查询解析成一颗查询树。交互式通信器(interactivecommunicator)负责与用户交流，来确保解析过程的正确性。被用户所确认的查询树会被查询树翻译器(querytreetranslator)翻译成SQL语句，然后由RDBMS(关系型数据库管理系统)执行。图2展示了ATHENA的系统架构，假设用户提交了这样一个查询：“ShowmerestrictedstockinvestmentsinAlibabasince2012byinvestorandyear”。第一步，NLQ引擎将确定这个查询对应至本体中的哪些元素。比如，片段“restrictedstock”将被对看作是InstitutionalInv...

【技术保护点】
1.一种基于自然语言理解的智能取数方法，其特征是，包括如下步骤：步骤1，用户输入搜索自然语言，外部分词器进行外部分段来分隔中文查询单词、并输送每个分隔单词至标记解析器Tokenizer内识别含义；步骤2，标记解析器Tokenizer尝试识别每个分隔单词的含义，必要时将分隔单词组合成短语，最后将单词和短语映射到含有语义信息的节点上，所有的单词最初都会标记成UnknownNode节点类型；步骤2.1，标记解析器Tokenizer首先解析与数据库不相关的节点，并配备一个词库用于识别这些类型的节点，为了解决同一个词在不同语境中有不同的含义，标记解析器Tokenizer允许编写识别规则，识别规则匹配的是句子中的节点，根据上下文解释单词；步骤2.2，标记解析器Tokenizer第二步解析与数据库相关的节点，首先从词本身出发，从所有匹配和组合方式中，通过打分的方式找到最佳的匹配和组合方式，接着将最佳匹配所有的节点的所有映射全排列，得到所有可能的组合，并将每个组合映射到数据模型Schema Graph的节点上，对这些节点生成Steiner Tree，在所有的Steiner Tree中，权重最小的组合即...

【技术特征摘要】
1.一种基于自然语言理解的智能取数方法，其特征是，包括如下步骤：步骤1，用户输入搜索自然语言，外部分词器进行外部分段来分隔中文查询单词、并输送每个分隔单词至标记解析器Tokenizer内识别含义；步骤2，标记解析器Tokenizer尝试识别每个分隔单词的含义，必要时将分隔单词组合成短语，最后将单词和短语映射到含有语义信息的节点上，所有的单词最初都会标记成UnknownNode节点类型；步骤2.1，标记解析器Tokenizer首先解析与数据库不相关的节点，并配备一个词库用于识别这些类型的节点，为了解决同一个词在不同语境中有不同的含义，标记解析器Tokenizer允许编写识别规则，识别规则匹配的是句子中的节点，根据上下文解释单词；步骤2.2，标记解析器Tokenizer第二步解析与数据库相关的节点，首先从词本身出发，从所有匹配和组合方式中，通过打分的方式找到最佳的匹配和组合方式，接着将最佳匹配所有的节点的所有映射全排列，得到所有可能的组合，并将每个组合映射到数据模型SchemaGraph的节点上，对这些节点生成SteinerTree，在所有的SteinerTree中，权重最小的组合即为最终标记解析器Tokenizer的结果，如果依旧有多个结果，则随机选出一个，并将所有结果返回用户，如有误用户可以订正；步骤3，将得到的节点序列转化成查询树QueryTree，查询树QueryTree的构建方式采用先局部建成小的子树，再合并的建树方法；步骤4，将查询树QueryTree转化成结构化查询语言SQL至数据库DB内、并反馈至用户自然语言交互模块内供用户参考。2.根据权利要求1所述的一种基于自然语言理解的智能...

【专利技术属性】
技术研发人员：王同和，凌立刚，孙锐，
申请(专利权)人：杭州量之智能科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人