一种基于非结构化海量数据的智能分析方法技术

技术编号:34343102 阅读:56 留言:0更新日期:2022-07-31 04:17
一种基于非结构化海量数据的智能分析方法,通过设定任务目标,针对任务目标设定有资料库。数据收集器将文件收集到资料库中。设置有标准模板,数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中;设置有聚类模型对文本进行聚类分析得到文本的主题类型标签,专家对机器聚类生成的类型作人工辅助调整,接着设置的分类模型对文本按照调整好的类型进行分类,在同一分类下分别按照时间节点做关联分析,有效的发现概念随着时间线的演化。的演化。的演化。

【技术实现步骤摘要】
一种基于非结构化海量数据的智能分析方法


[0001]本专利技术涉及计算机领域,具体涉及一种基于非结构化海量数据的智能分析方法。

技术介绍

[0002]大数据时代,网络上随时都在产生大量的文本数据,例如,邮件、网页、文档、语音等。为了对现有数据进行利用,我们需要更加全面的对收集到的庞大的数据信息进行分析处理,从中分析和挖掘出有价值的信息。现有技术中,产生的原始数据越来越多的是非结构化数据,对这些原始数据使用之前主要是通过人工进行标注清洗处理,随着信息量增加,光是靠人工处理,一方面,重复工作容易出错,另一方面,随着数据增加,人工前期进行清洗标注效率也不高,很容易出错。因此,如何利用机器算法辅助人工对这些原始数据进行高效的分析和提炼始终是本领域的需要解决的问题。

技术实现思路

[0003]本专利技术针对现有技术的不足,提出一种基于非结构化海量数据的智能分析方法,具体技术方案如下:
[0004]一种基于非结构化海量数据的智能分析方法,其特征在于:
[0005]包括如下步骤:
[0006]S1:设定任务目标,针对任务目标设定有资料库;
[0007]S2:数据收集器将文件收集到资料库中;
[0008]S3:设置有标准模板,数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中;
[0009]S4:数据处理模块针对数据库中的文本建立初步的术语

文本矩阵,其中矩阵的行代表文本,矩阵中的列代表术语,数据处理模块将术语

文本矩阵发送到审核端;
[0010]S5:专家通过审核端对术语

文本矩阵进行检验,剔除掉干扰词,缩小矩阵维度,得到最终术语

文本矩阵;
[0011]S6:设置有聚类模型,数据处理模块调用聚类模型对文本进行聚类分析,得到初步的主题标签,数据处理模块将该主题标签发送到审核端;
[0012]S7:专家对主题标签进行评估,专家对主题标签进行人工评估增删后,通过审核端将该分类标签保存到数据库中;
[0013]S8:数据处理模块用标注有分类标签的文本集作为训练数据,训练得到分类模型;
[0014]S9:数据处理模块调用训练好的分类模型对文本进行分类,将文本划分到对应的标签下面,得到分类文件集合;
[0015]S10:针对同一分类文件集合,数据处理模块选取不同时间节点的文件集,得到多组文件集合;
[0016]S11:数据处理模块对每组文件集合中的文件内容作概念关联分析;
[0017]S12:数据处理模块按照时间节点将同一分类下的关键概念组整理成报告发送到
审核端;
[0018]S13:审核端将报告呈现可视化展示,方便观察到同一分类下关键概念及其发展趋势。
[0019]2、根据权利要求1所述一种基于非结构化海量数据的智能分析方法,其特征在于:所述聚类模型采用K均值聚类算法。
[0020]3、根据权利要求1所述一种基于非结构化海量数据的智能分析方法,其特征在于:所述数据收集器为网络爬虫。
[0021]4、根据权利要求1所述一种基于非结构化海量数据的智能分析方法,其特征在于:所述收集资料包括文本档案、XML文件、邮件、网页、语音。
[0022]5、根据权利要求1所述一种基于非结构化海量数据的智能分析方法,其特征在于:所述语音通过语音识别模型转换成文字脚本输入到资料库中。
[0023]本专利技术的有益效果为:本专利技术设置有标准模板,能够将非结构化文本转换为结构化的模板,设置有聚类模型对文本进行聚类分析得到文本的主题类型标签,专家对机器聚类生成的类型作人工辅助调整,接着设置的分类模型对文本按照调整好的类型进行分类,在同一分类下分别按照时间节点做关联分析,有效的发现概念随着时间线的演化。
附图说明
[0024]图1为本专利技术的工作流程图。
具体实施方式
[0025]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]如图1所示:
[0027]一种基于非结构化海量数据的智能分析方法,
[0028]包括如下步骤:
[0029]S1:设定任务目标,针对任务目标设定有资料库;
[0030]S2:数据收集器将文件收集到资料库中,其中,在本实施例中,所述收集资料包括文本档案、XML文件、邮件、网页、语音。
[0031]S3:设置有标准模板,数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中;
[0032]S4:数据处理模块针对数据库中的文本建立初步的术语

文本矩阵,其中矩阵的行代表文本,矩阵中的列代表术语,数据处理模块将术语

文本矩阵发送到审核端;
[0033]S5:专家通过审核端对术语

文本矩阵进行检验,剔除掉干扰词,缩小矩阵维度,得到最终术语

文本矩阵;
[0034]S6:设置有聚类模型,其中,在本实施例中,聚类模型采用K均值聚类算法。
[0035]数据处理模块调用聚类模型对文本进行聚类分析,得到初步的主题标签,数据处理模块将该主题标签发送到审核端;
[0036]S7:专家对主题标签进行评估,专家对主题标签进行人工评估增删后,通过审核端将该分类标签保存到数据库中;
[0037]S8:数据处理模块用标注有分类标签的文本集作为训练数据,训练得到分类模型;
[0038]S9:数据处理模块调用训练好的分类模型对文本进行分类,将文本划分到对应的标签下面,得到分类文件集合;
[0039]S10:针对同一分类文件集合,数据处理模块选取不同时间节点的文件集,得到多组文件集合;
[0040]S11:数据处理模块对每组文件集合中的文件内容作概念关联分析;
[0041]S12:数据处理模块按照时间节点将同一分类下的关键概念组整理成报告发送到审核端;
[0042]S13:审核端将报告呈现可视化展示,方便观察到同一分类下关键概念及其发展趋势。
[0043]本实施例也可以对语音进行分析,语音通过语音识别模型转换成文字脚本输入到资料库中。
[0044]对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本专利技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0045]此外,应当理解本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化海量数据的智能分析方法,其特征在于:包括如下步骤:S1:设定任务目标,针对任务目标设定有资料库;S2:数据收集器将文件收集到资料库中;S3:设置有标准模板,数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中;S4:数据处理模块针对数据库中的文本建立初步的术语

文本矩阵,其中矩阵的行代表文本,矩阵中的列代表术语,数据处理模块将术语

文本矩阵发送到审核端;S5:专家通过审核端对术语

文本矩阵进行检验,剔除掉干扰词,缩小矩阵维度,得到最终术语

文本矩阵;S6:设置有聚类模型,数据处理模块调用聚类模型对文本进行聚类分析,得到初步的主题标签,数据处理模块将该主题标签发送到审核端;S7:专家对主题标签进行评估,专家对主题标签进行人工评估增删后,通过审核端将该分类标签保存到数据库中;S8:数据处理模块用标注有分类标签的文本集作为训练数据,训练得到...

【专利技术属性】
技术研发人员:张昌福杨文峰李琳文杰杨廷玮泞袁江远
申请(专利权)人:贵州航天云网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1