一种基于中文自然语言的数据分析方法及装置制造方法及图纸

技术编号：28295477 阅读：20 留言：0更新日期：2021-04-30 16:19

本发明专利技术提供一种基于中文自然语言的数据分析方法及装置，所述方法包括：接收客户端发送的查询请求，并根据所述查询请求获得待分析文本；对所述待分析文本进行数据分析信息提取，获得所述待分析文本的数据分析信息；根据所述数据分析信息生成查询信息，并基于所述查询信息获得待分析数据；根据所述数据分析信息从分析模型库中，获得所述待分析文本对应的数据分析模型；根据所述待分析文本对应的数据分析模型以及所述待分析数据，获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。所述装置用于执行上述方法。本发明专利技术实施例提供的基于中文自然语言的数据分析方法及装置，提高了数据分析的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于中文自然语言的数据分析方法及装置
本专利技术涉及人工智能
，具体涉及一种基于中文自然语言的数据分析方法及装置。
技术介绍
基于自然语言处理技术，可以识别用户语言描述的操作意图，获得用户需要分析的数据，进行数据分析。现有技术中，对于数据的分析，包括基于传统的数据仓库建模体系的数据分析展现方法和全自助式可视化分析方法。基于传统的数据仓库建模体系的数据分析展现方法利用现代数据仓库技术，通过建模体系对数据、元数据、数据之间的关系进行描述，利用现代可视化展现技术进行数据分析的一种方法。但是，基于传统的数据仓库建模体系的数据分析展现方法存在数据处理链条过长、处理过程复杂、技术门槛高、响应时间长等缺点。全自助式可视化分析方法通过敏捷BI工具，直接访问数据库或者文本中的数据，再借由相应的可视化工具，进行自主的数据分析和可视化展现。但是，全自助式可视化分析方法在应用中需要用户具有一定的技术背景，比如会写SQL，会一些简单的脚本。同时还要有业务背景，需要了解底层数据的逻辑，数据的存储结构等等，具有一定的技术门槛，并且在数据分析过程中需要人工干预，降低了数据分析的效率。
技术实现思路
针对现有技术中的问题，本专利技术实施例提供一种基于中文自然语言的数据分析方法及装置，能够至少部分地解决现有技术中存在的问题。一方面，本专利技术提出一种基于中文自然语言的数据分析方法，包括：接收客户端发送的查询请求，并根据所述查询请求获得待分析文本；对所述待分析文本进行数据分析信息提取，获得所述...

【技术保护点】
1.一种基于中文自然语言的数据分析方法，其特征在于，包括：/n接收客户端发送的查询请求，并根据所述查询请求获得待分析文本；/n对所述待分析文本进行数据分析信息提取，获得所述待分析文本的数据分析信息；/n根据所述数据分析信息生成查询信息，并基于所述查询信息获得待分析数据；/n根据所述数据分析信息从分析模型库中，获得所述待分析文本对应的数据分析模型；/n根据所述待分析文本对应的数据分析模型以及所述待分析数据，获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。/n

【技术特征摘要】
1.一种基于中文自然语言的数据分析方法，其特征在于，包括：
接收客户端发送的查询请求，并根据所述查询请求获得待分析文本；
对所述待分析文本进行数据分析信息提取，获得所述待分析文本的数据分析信息；
根据所述数据分析信息生成查询信息，并基于所述查询信息获得待分析数据；
根据所述数据分析信息从分析模型库中，获得所述待分析文本对应的数据分析模型；
根据所述待分析文本对应的数据分析模型以及所述待分析数据，获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。

2.根据权利要求1所述的方法，其特征在于，所述对所述待分析文本进行数据分析信息提取，获得所述待分析文本的数据分析信息包括：
通过第一词库和第二词库对所述待分析文本进行分词处理，获得所述待分析文本的词向量；其中，所述第二词库是预先获得的；
根据所述词向量以及语义规则状态机，获得所述待分析文本对应的特征要素，每个特征要素对应所述语义规则状态机中的一条识别分支；其中，所述语义规则状态机是预先生成的，包括多条识别分支；
根据每个特征要素以及每个特征要素对应的识别分支所对应的转化规则，获得所述待分析文本的数据分析信息。

3.根据权利要求2所述的方法，其特征在于，所述通过第一词库和第二词库对所述待分析文本进行分词处理，获得所述待分析文本的词向量包括：
通过所述第一词库对所述待分析文本进行分词和词性标注，获得分词结果；
通过所述第二词库对所述分词结果进行修正和分类，获得所述待分析文本的词向量。

4.根据权利要求2所述的方法，其特征在于，所述根据所述词向量以及语义规则状态机，获得所述待分析文本对应的特征要素包括：
将所述词向量与所述语义规则状态机中的每条识别分支进行匹配；
若判断获知所述词向量包括的词语与所述识别分支匹配，则将与所述识别分支匹配的词语作为与所述识别分支对应的特征要素。

5.根据权利要求4所述的方法，其特征在于，所述将所述词向量与所述语义规则状态机中的每条识别分支进行匹配包括：
按照所述词向量包括的词语的排列顺序，根据每个词语的词语信息以及语义匹配规则将每个词语与每条识别分支包括的第一个语义单元进行匹配；其中，每条识别分支包括至少一个语义单元；其中，所述词语信息包括所述词语、所述词语的词性或者所述词语的分类中的至少一个信息；其中，所述语义匹配规...

【专利技术属性】
技术研发人员：王星宇，吴明星，李纪洲，刘文圣，
申请(专利权)人：北京久其软件股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人