一种基于非结构化海量数据的智能分析方法技术

技术编号：34343102 阅读：56 留言：0更新日期：2022-07-31 04:17

一种基于非结构化海量数据的智能分析方法，通过设定任务目标，针对任务目标设定有资料库。数据收集器将文件收集到资料库中。设置有标准模板，数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中；设置有聚类模型对文本进行聚类分析得到文本的主题类型标签，专家对机器聚类生成的类型作人工辅助调整，接着设置的分类模型对文本按照调整好的类型进行分类，在同一分类下分别按照时间节点做关联分析，有效的发现概念随着时间线的演化。的演化。的演化。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于非结构化海量数据的智能分析方法

[0001]本专利技术涉及计算机领域，具体涉及一种基于非结构化海量数据的智能分析方法。

技术介绍

[0002]大数据时代，网络上随时都在产生大量的文本数据，例如，邮件、网页、文档、语音等。为了对现有数据进行利用，我们需要更加全面的对收集到的庞大的数据信息进行分析处理，从中分析和挖掘出有价值的信息。现有技术中，产生的原始数据越来越多的是非结构化数据，对这些原始数据使用之前主要是通过人工进行标注清洗处理，随着信息量增加，光是靠人工处理，一方面，重复工作容易出错，另一方面，随着数据增加，人工前期进行清洗标注效率也不高，很容易出错。因此，如何利用机器算法辅助人工对这些原始数据进行高效的分析和提炼始终是本领域的需要解决的问题。

技术实现思路

[0003]本专利技术针对现有技术的不足，提出一种基于非结构化海量数据的智能分析方法，具体技术方案如下：
[0004]一种基于非结构化海量数据的智能分析方法，其特征在于：
[0005]包括如下步骤：
[0006]S1：设定任务目标，针对任务目标设定有资料库；
[0007]S2：数据收集器将文件收集到资料库中；
[0008]S3：设置有标准模板，数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中；
[0009]S4：数据处理模块针对数据库中的文本建立初步的术语
‑
文本矩阵，其中矩阵的行代表文本，矩阵中的列代表术语，数据处理模块将术语
‑
...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化海量数据的智能分析方法，其特征在于：包括如下步骤：S1：设定任务目标，针对任务目标设定有资料库；S2：数据收集器将文件收集到资料库中；S3：设置有标准模板，数据转换模块将所有文件按照标准模板转换成统一的文本格式存储到数据库中；S4：数据处理模块针对数据库中的文本建立初步的术语
‑
文本矩阵，其中矩阵的行代表文本，矩阵中的列代表术语，数据处理模块将术语
‑
文本矩阵发送到审核端；S5：专家通过审核端对术语
‑
文本矩阵进行检验，剔除掉干扰词，缩小矩阵维度，得到最终术语
‑
文本矩阵；S6：设置有聚类模型，数据处理模块调用聚类模型对文本进行聚类分析，得到初步的主题标签，数据处理模块将该主题标签发送到审核端；S7：专家对主题标签进行评估，专家对主题标签进行人工评估增删后，通过审核端将该分类标签保存到数据库中；S8：数据处理模块用标注有分类标签的文本集作为训练数据，训练得到...

【专利技术属性】
技术研发人员：张昌福，杨文峰，李琳，文杰，杨廷玮泞，袁江远，
申请(专利权)人：贵州航天云网科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人