文本聚类图片识别方法、装置和系统制造方法及图纸

技术编号：31573432 阅读：42 留言：0更新日期：2021-12-25 11:14

本发明专利技术公开一种文本聚类图片识别方法、装置和系统，通过人工智能算法将处理软件文本进行向量化并聚类，自动将原生相机软件信息和风险处理软件区分开来，精确地找出风险研判的风险软件，实现了疑似风险软件的自动化预警，并且优化了整个系统，大大降低了风险研判的工作量和人工操作风险。量和人工操作风险。量和人工操作风险。

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类图片识别方法、装置和系统

[0001]本专利技术涉及人工智能领域，尤其涉及一种文本聚类图片识别方法、装置和系统。

技术介绍

[0002]随着人工智能技术的发展，文本智能识别和图片智能识别已经广泛应用于多个场景，由于人工智能算法的特点，文本识别相对简单，但对于图片识别来说速度较慢，特别是对于大量图片识别的场景下，有些更需要提高识别图片的准确度，降低图片识别错误率以及对假冒图片信息的识别，光靠提高硬件设备的性能难以满足，实时处理的场景也很难得到很好的用户体验。

技术实现思路

[0003]针对上述缺陷，本专利技术要解决的技术问题是如何快速准确地识别图片，尤其是对图片真实性进行评估。
[0004]针对上述缺陷，本专利技术的目的在于提供一种文本聚类图片识别方法、系统及电子设备、计算机存储介质和程序产品。
[0005]本专利技术提供一种文本聚类图片识别方法，用于服务器端，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的...

【技术保护点】

【技术特征摘要】
1.一种文本聚类图片识别方法，用于服务器端，对输入的图片进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息；将同一机型下的去重后的处理软件文本输入LDA模型，根据词数预设好主题的个数后，所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布，生成每个文本对应的词频向量；对于不同处理软件文本进行聚类，预设好类内最大距离后，所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合，生成最终聚类的类别，遍历所有机型的所有处理软件文本，对照风险软件名单得出风险预警结果。2.根据权利要求1所述的文本聚类图片识别方法，正常手机自带相机软件，软件信息不完全一致，符合一定的编码规律。3.根据权利要求2所述的文本聚类图片识别方法，正常手机自带相机软件被聚成一个大类，而风险软件出现在样本点稀少的类中。4.根据权利要求1所述的文本聚类图片识别方法，类内风险计算，计算类内指标，定位存在风险的类。5.根据权利要求4所述的文本聚类图片识别方法，所述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。6.根据权利要求1
‑
5之一所述的文本聚类图片识别方法，所述方法对于疑似风险的类中的软件信息，使用当前已知的安全软件名单和风险软件名单进行过滤。7.根据权利要求1
‑
5之一所述的文本聚类图片识别方法，所述方法对得到的风险预警的结果进行分析，若排除风险则更新至安全软件名单；若确认风险，则更新至风险软件名单。8.一种文本聚类图片识别系统，包括服务器端、客户端和互联网平台，用户通过所述客户端提交图片，所述互联网平台，收集用户输入的图片并进行可交换图像文件格式信息的提取和去重，解析得出图片的处理软件、相机机型以及图像生成模式信息，并传输给服务器端，所述服务器端将同一机型下的去重后的处理软件文本输...

【专利技术属性】
技术研发人员：陈冠伟，
申请(专利权)人：北京好欣晴移动医疗科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人