一种基于中文自然语言的数据分析方法及装置制造方法及图纸

技术编号:28295477 阅读:20 留言:0更新日期:2021-04-30 16:19
本发明专利技术提供一种基于中文自然语言的数据分析方法及装置,所述方法包括:接收客户端发送的查询请求,并根据所述查询请求获得待分析文本;对所述待分析文本进行数据分析信息提取,获得所述待分析文本的数据分析信息;根据所述数据分析信息生成查询信息,并基于所述查询信息获得待分析数据;根据所述数据分析信息从分析模型库中,获得所述待分析文本对应的数据分析模型;根据所述待分析文本对应的数据分析模型以及所述待分析数据,获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。所述装置用于执行上述方法。本发明专利技术实施例提供的基于中文自然语言的数据分析方法及装置,提高了数据分析的效率。

【技术实现步骤摘要】
一种基于中文自然语言的数据分析方法及装置
本专利技术涉及人工智能
,具体涉及一种基于中文自然语言的数据分析方法及装置。
技术介绍
基于自然语言处理技术,可以识别用户语言描述的操作意图,获得用户需要分析的数据,进行数据分析。现有技术中,对于数据的分析,包括基于传统的数据仓库建模体系的数据分析展现方法和全自助式可视化分析方法。基于传统的数据仓库建模体系的数据分析展现方法利用现代数据仓库技术,通过建模体系对数据、元数据、数据之间的关系进行描述,利用现代可视化展现技术进行数据分析的一种方法。但是,基于传统的数据仓库建模体系的数据分析展现方法存在数据处理链条过长、处理过程复杂、技术门槛高、响应时间长等缺点。全自助式可视化分析方法通过敏捷BI工具,直接访问数据库或者文本中的数据,再借由相应的可视化工具,进行自主的数据分析和可视化展现。但是,全自助式可视化分析方法在应用中需要用户具有一定的技术背景,比如会写SQL,会一些简单的脚本。同时还要有业务背景,需要了解底层数据的逻辑,数据的存储结构等等,具有一定的技术门槛,并且在数据分析过程中需要人工干预,降低了数据分析的效率。
技术实现思路
针对现有技术中的问题,本专利技术实施例提供一种基于中文自然语言的数据分析方法及装置,能够至少部分地解决现有技术中存在的问题。一方面,本专利技术提出一种基于中文自然语言的数据分析方法,包括:接收客户端发送的查询请求,并根据所述查询请求获得待分析文本;对所述待分析文本进行数据分析信息提取,获得所述待分析文本的数据分析信息;根据所述数据分析信息生成查询信息,并基于所述查询信息获得待分析数据;根据所述数据分析信息从分析模型库中,获得所述待分析文本对应的数据分析模型;根据所述待分析文本对应的数据分析模型以及所述待分析数据,获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。另一方面,本专利技术提供一种基于中文自然语言的数据分析装置,包括:接收单元,用于接收客户端发送的查询请求,并根据所述查询请求获得待分析文本;提取单元,用于对所述待分析文本进行数据分析信息提取,获得所述待分析文本的数据分析信息;生成单元,用于根据所述数据分析信息生成查询信息,并基于所述查询信息获得待分析数据;获得单元,用于根据所述数据分析信息从分析模型库中,获得所述待分析文本对应的数据分析模型;分析单元,用于根据所述待分析文本对应的数据分析模型以及所述待分析数据,获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。再一方面,本专利技术提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述基于中文自然语言的数据分析方法的步骤。又一方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述基于中文自然语言的数据分析方法的步骤。本专利技术实施例提供的基于中文自然语言的数据分析方法及装置,能够接收客户端发送的查询请求,并根据查询请求获得待分析文本,对待分析文本进行数据分析信息提取,获得待分析文本的数据分析信息,根据数据分析信息生成查询信息,并基于查询信息获得待分析数据,根据数据分析信息从分析模型库中,获得待分析文本对应的数据分析模型,根据待分析文本对应的数据分析模型以及待分析数据,获得待分析文本对应的数据分析结果并将待分析文本对应的数据分析结果返回给所述客户端,通过用户输入的意图,自动获得相应的数据并进行数据分析,提高了数据分析的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术第一实施例提供的基于中文自然语言的数据分析系统的结构示意图。图2是本专利技术第二实施例提供的基于中文自然语言的数据分析方法的流程示意图。图3是本专利技术第三实施例提供的基于中文自然语言的数据分析方法的流程示意图。图4是本专利技术第四实施例提供的基于中文自然语言的数据分析方法的流程示意图。图5是本专利技术第五实施例提供的语义网络的结构示意图。图6是本专利技术第六实施例提供的基于中文自然语言的数据分析方法的流程示意图。图7是本专利技术第七实施例提供的基于中文自然语言的数据分析方法的流程示意图。图8是本专利技术第八实施例提供的语义规则状态机的结构示意图。图9是本专利技术第九实施例提供的词向量与语义规则状态机中的每条识别分支进行匹配的流程图。图10是本专利技术第十实施例提供的基于中文自然语言的数据分析装置的结构示意图。图11是本专利技术第十一实施例提供的电子设备的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。本专利技术实施例提供的基于中文自然语言的数据分析方法,能够解决传统数据分析,在实施过程中,存在的配置过程复杂,成本过高的问题。还能够解决传统数据分析门槛高和需求响应慢等问题。图1是本专利技术第一实施例提供的基于中文自然语言的数据分析系统的结构示意图,如图1所示,本专利技术实施例提供的基于中文自然语言的数据分析系统包括客户端1和服务器2,其中:客户端1与服务器2通信连接。其中,客户端1包括但不限于移动终端、笔记本电脑和台式机。用户通过客户端1向服务器2发送查询请求,服务器2执行本专利技术实施例提供的基于中文自然语言的数据分析方法对根据所述查询请求获得的待分析文本进行数据分析,获得所述待分析文本对应的数据分析结果并返回给客户端1。图2是本专利技术第二实施例提供的基于中文自然语言的数据分析方法的流程示意图,如图2所示,本专利技术实施例提供的基于中文自然语言的数据分析方法,包括:S201、接收客户端发送的查询请求,并根据所述查询请求获得待分析文本;具体地,用户通过客户端向服务器发送查询请求,所述查询请求可以包括用户输入到所述客户端的文字信息或者语音信息。所述服务器会接收所述查询请求,如果所述查询请求包括用户输入的文字信息,那么所述服务器可以直接获取用户输入的文字信息作为待分析文本。如果所述查询请求包括用户输入的语音信息,那么所述服务器可以通过语音识别技术将语音信息转换成文本信息,将转换获得的文本信息作为待分析文本。其中,本专利技术实施例提供的基于中文自然语言的数据分析方法的执行主体包括但不限于服务器。例如,用户通过键盘向台式机输入“我想看看今年本文档来自技高网...

【技术保护点】
1.一种基于中文自然语言的数据分析方法,其特征在于,包括:/n接收客户端发送的查询请求,并根据所述查询请求获得待分析文本;/n对所述待分析文本进行数据分析信息提取,获得所述待分析文本的数据分析信息;/n根据所述数据分析信息生成查询信息,并基于所述查询信息获得待分析数据;/n根据所述数据分析信息从分析模型库中,获得所述待分析文本对应的数据分析模型;/n根据所述待分析文本对应的数据分析模型以及所述待分析数据,获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。/n

【技术特征摘要】
1.一种基于中文自然语言的数据分析方法,其特征在于,包括:
接收客户端发送的查询请求,并根据所述查询请求获得待分析文本;
对所述待分析文本进行数据分析信息提取,获得所述待分析文本的数据分析信息;
根据所述数据分析信息生成查询信息,并基于所述查询信息获得待分析数据;
根据所述数据分析信息从分析模型库中,获得所述待分析文本对应的数据分析模型;
根据所述待分析文本对应的数据分析模型以及所述待分析数据,获得所述待分析文本对应的数据分析结果并将所述待分析文本对应的数据分析结果返回给所述客户端。


2.根据权利要求1所述的方法,其特征在于,所述对所述待分析文本进行数据分析信息提取,获得所述待分析文本的数据分析信息包括:
通过第一词库和第二词库对所述待分析文本进行分词处理,获得所述待分析文本的词向量;其中,所述第二词库是预先获得的;
根据所述词向量以及语义规则状态机,获得所述待分析文本对应的特征要素,每个特征要素对应所述语义规则状态机中的一条识别分支;其中,所述语义规则状态机是预先生成的,包括多条识别分支;
根据每个特征要素以及每个特征要素对应的识别分支所对应的转化规则,获得所述待分析文本的数据分析信息。


3.根据权利要求2所述的方法,其特征在于,所述通过第一词库和第二词库对所述待分析文本进行分词处理,获得所述待分析文本的词向量包括:
通过所述第一词库对所述待分析文本进行分词和词性标注,获得分词结果;
通过所述第二词库对所述分词结果进行修正和分类,获得所述待分析文本的词向量。


4.根据权利要求2所述的方法,其特征在于,所述根据所述词向量以及语义规则状态机,获得所述待分析文本对应的特征要素包括:
将所述词向量与所述语义规则状态机中的每条识别分支进行匹配;
若判断获知所述词向量包括的词语与所述识别分支匹配,则将与所述识别分支匹配的词语作为与所述识别分支对应的特征要素。


5.根据权利要求4所述的方法,其特征在于,所述将所述词向量与所述语义规则状态机中的每条识别分支进行匹配包括:
按照所述词向量包括的词语的排列顺序,根据每个词语的词语信息以及语义匹配规则将每个词语与每条识别分支包括的第一个语义单元进行匹配;其中,每条识别分支包括至少一个语义单元;其中,所述词语信息包括所述词语、所述词语的词性或者所述词语的分类中的至少一个信息;其中,所述语义匹配规...

【专利技术属性】
技术研发人员:王星宇吴明星李纪洲刘文圣
申请(专利权)人:北京久其软件股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1