一种基于网络舆情的文本分拣模型制造技术

技术编号:35263944 阅读:18 留言:0更新日期:2022-10-19 10:24
本发明专利技术实施例涉及网络舆情技术领域,具体公开了一种基于网络舆情的文本分拣模型,包括:数据处理单元,用于进行数据预处理和泛媒体解析,并进行对比和处理;数据存储单元,用于进行数据存储;算法推理单元,用于对目标数据进行算法推理和聚类处理;应用模型单元,用于生成业务数据;业务应用单元,用于开发应用。能够对目标数据进行数据预处理和泛媒体解析,并与样本库中的内容进行对比和处理,对目标数据进行文本算法推理、图像算法推理、语音算法推理和聚类处理,将处理结果保存在数据存储单元,还能够对目标数据进行二次处理,生成业务数据,进而开发相应的应用,能够满足越来越复杂多样的网络舆情的监测,实现对网络舆情文本的有效分拣。的有效分拣。的有效分拣。

【技术实现步骤摘要】
一种基于网络舆情的文本分拣模型


[0001]本专利技术属于网络舆情
,尤其涉及一种基于网络舆情的文本分拣模型。

技术介绍

[0002]网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。网络舆论则是各种流行网络舆情的多元化集合。
[0003]利用技术手段实现对海量的网络舆情信息进行深度挖掘与分析,以快速汇总成舆情信息,从而代替人工阅读和分析网络舆情信息的繁复工作,是网络舆情监测的技术趋势,但是现有的网络舆情监测手段,通常无法满足越来越复杂多样的网络舆情的表现方式,无法实现对网络舆情文本的有效分拣。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种基于网络舆情的文本分拣模型,旨在解决
技术介绍
中提出的问题。
[0005]为实现上述目的,本专利技术实施例提供如下技术方案:
[0006]一种基于网络舆情的文本分拣模型,所述模型包括数据处理单元、数据存储单元、算法推理单元、应用模型单元和业务应用单元,其中:
[0007]数据处理单元,用于对采集或接入的目标数据进行数据预处理和泛媒体解析,并设置样本库,将目标数据与样本库中的内容进行对比和处理;
[0008]数据存储单元,用于采用关系型数据库存储结构化数据,采用非关系型数据库存储半结构化数据,并对非结构化数据进行存储;
[0009]算法推理单元,用于对目标数据中的文本数据进行文本算法推理,对目标数据中的图片数据进行图像算法推理,对目标数据中的视频或音频数据进行语音算法推理,并进行数据聚类处理,生成算法推理结果;
[0010]应用模型单元,用于根据具体的业务应用,基于算法推理结果,对目标数据进行二次处理,生成业务数据;
[0011]业务应用单元,用于根据所述业务数据,开发相应的应用。
[0012]作为本专利技术实施例技术方案进一步的限定,所述数据处理单元具体包括:
[0013]数据获取模块,用于采集或接入的目标数据;
[0014]数据预处理模块,用于对目标数据进行数据整理、数据集成、数据变换和数据规范,将目标数据中无意义、缺失值和特殊符号剔除;
[0015]泛媒体解析模块,用于对目标数据中的图片数据和视频数据进行资源信息的解析;
[0016]样本库对比模块,用于设置样本库,将目标数据与样本库中的内容进行对比和处理。
[0017]作为本专利技术实施例技术方案进一步的限定,所述样本库对比模块具体包括:
[0018]样本库构建子模块,用于按照客户的定制化处理,在样本库中预置了高危、敏感的历史舆情数据,将其进行特征表示和哈希编码,存入样本库;
[0019]对比处理子模块,用于对接入的目标数据,通过相同特征表示和哈希编码,与样本库里的数据进行内容比对,如果比对结果一致,给出结构化信息存入数据存储单元,可跳过后续算法推理等数据计算步骤,直接作为应用模型单元的输入。
[0020]作为本专利技术实施例技术方案进一步的限定,所述数据存储单元具体包括:
[0021]结构化数据存储模块,用于对结构化数据采用关系型数据库进行存储;
[0022]半结构化数据存储模块,用于对半结构化数据采用非关系型数据进行存储;
[0023]非结构化数据存储模块,用于对非结构化数据进行存储。
[0024]作为本专利技术实施例技术方案进一步的限定,所述算法推理单元具体包括:
[0025]文本算法推理模块,用于对目标数据中的文本数据进行文本算法推理;
[0026]图像算法推理模块,用于对目标数据中的图片数据进行图像算法推理;
[0027]语音算法推理模块,用于对目标数据中的视频数据或音频数据进行语音算法推理;
[0028]数据聚类处理模块,用于进行数据聚类处理,生成算法推理结果。
[0029]作为本专利技术实施例技术方案进一步的限定,所述文本算法推理模块具体包括:
[0030]文本分类处理子模块,用于对文本数据进行文本分类处理,生成文本分类标签;
[0031]文本情感分析子模块,用于对文本数据进行文本情感分析,生成文本情感标签;
[0032]语义特征提取子模块,用于对文本数据进行文本语义特征提取,生成文本语义特征表示。
[0033]作为本专利技术实施例技术方案进一步的限定,所述图像算法推理模块具体包括:
[0034]图片分类子模块,用于对图片数据进行内容属性预测与分类;
[0035]图片聚类子模块,用于对图片数据进行分类支持的编码、聚类与合并;
[0036]物体内容检测子模块,用于对图片数据进行物体和内容的检测,生成检测结果;
[0037]文字检测子模块,用于检测图片数据中的文字信息,并将所述文字信息输出;
[0038]人脸识别子模块,用于检测图片数据中的人脸数据,并进行人脸识别。
[0039]作为本专利技术实施例技术方案进一步的限定,所述语音算法推理模块具体包括:
[0040]语音提取子模块,用于提取视频数据或音频数据中的语音信息;
[0041]文字转化子模块,用于使用预设的语音识别模型,将语音信息转化为文字内容;
[0042]文字分析子模块,用于对文字内容进行分析。
[0043]作为本专利技术实施例技术方案进一步的限定,所述数据聚类处理模块具体包括:
[0044]特征提取子模块,用于根据预设的特征提取模型提取出数据的向量化特征;
[0045]标签输出子模块,用于按照向量化特征,输出数据对应的类簇标签;
[0046]聚类处理子模块,用于按照类簇标签进行数据聚类处理,生成算法推理结果。
[0047]作为本专利技术实施例技术方案进一步的限定,所述应用模型单元具体包括:
[0048]舆情分拣模块,用于通过预设的舆情分拣模型进行舆情分拣,生成舆情分拣文本;
[0049]舆情判断模块,用于通过预设的舆情判断模型,对舆情分拣文本进行舆情判断,生成舆情判断结果;
[0050]违法检测模块,用于按照舆情判断结果进行违法检测。
[0051]与现有技术相比,本专利技术的有益效果是:
[0052]本专利技术公开的一种基于网络舆情的文本分拣模型,包括:数据处理单元,用于进行数据预处理和泛媒体解析,并进行对比和处理;数据存储单元,用于进行数据存储;算法推理单元,用于对目标数据进行算法推理和聚类处理;应用模型单元,用于生成业务数据;业务应用单元,用于开发应用。能够对目标数据进行数据预处理和泛媒体解析,并与样本库中的内容进行对比和处理,对目标数据进行文本算法推理、图像算法推理、语音算法推理和聚类处理,将处理结果保存在数据存储单元,还能够对目标数据进行二次处理,生成业务数据,进而开发相应的应用,能够满足越来越复杂多样的网络舆情的监测,实现对网络舆情文本的有效分拣。
附图说明
[0053]为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于网络舆情的文本分拣模型,其特征在于,所述模型包括数据处理单元、数据存储单元、算法推理单元、应用模型单元和业务应用单元,其中:数据处理单元,用于对采集或接入的目标数据进行数据预处理和泛媒体解析,并设置样本库,将目标数据与样本库中的内容进行对比和处理;数据存储单元,用于采用关系型数据库存储结构化数据,采用非关系型数据库存储半结构化数据,并对非结构化数据进行存储;算法推理单元,用于对目标数据中的文本数据进行文本算法推理,对目标数据中的图片数据进行图像算法推理,对目标数据中的视频或音频数据进行语音算法推理,并进行数据聚类处理,生成算法推理结果;应用模型单元,用于根据具体的业务应用,基于算法推理结果,对目标数据进行二次处理,生成业务数据;业务应用单元,用于根据所述业务数据,开发相应的应用。2.根据权利要求1所述的基于网络舆情的文本分拣模型,其特征在于,所述数据处理单元具体包括:数据获取模块,用于采集或接入的目标数据;数据预处理模块,用于对目标数据进行数据整理、数据集成、数据变换和数据规范,将目标数据中无意义、缺失值和特殊符号剔除;泛媒体解析模块,用于对目标数据中的图片数据和视频数据进行资源信息的解析;样本库对比模块,用于设置样本库,将目标数据与样本库中的内容进行对比和处理。3.根据权利要求2所述的基于网络舆情的文本分拣模型,其特征在于,所述样本库对比模块具体包括:样本库构建子模块,用于按照客户的定制化处理,在样本库中预置了高危、敏感的历史舆情数据,将其进行特征表示和哈希编码,存入样本库;对比处理子模块,用于对接入的目标数据,通过相同特征表示和哈希编码,与样本库里的数据进行内容比对,如果比对结果一致,给出结构化信息存入数据存储单元,可跳过后续算法推理等数据计算步骤,直接作为应用模型单元的输入。4.根据权利要求1所述的基于网络舆情的文本分拣模型,其特征在于,所述数据存储单元具体包括:结构化数据存储模块,用于对结构化数据采用关系型数据库进行存储;半结构化数据存储模块,用于对半结构化数据采用非关系型数据进行存储;非结构化数据存储模块,用于对非结构化数据进行存储。5.根据权利要求1所述的基于网络舆情的文本分拣模型,其特征在于,所述算法推理单...

【专利技术属性】
技术研发人员:薛玲
申请(专利权)人:云目未来科技湖南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1