文本聚类图片识别方法、装置和系统制造方法及图纸

技术编号:31573432 阅读:19 留言:0更新日期:2021-12-25 11:14
本发明专利技术公开一种文本聚类图片识别方法、装置和系统,通过人工智能算法将处理软件文本进行向量化并聚类,自动将原生相机软件信息和风险处理软件区分开来,精确地找出风险研判的风险软件,实现了疑似风险软件的自动化预警,并且优化了整个系统,大大降低了风险研判的工作量和人工操作风险。量和人工操作风险。量和人工操作风险。

【技术实现步骤摘要】
文本聚类图片识别方法、装置和系统


[0001]本专利技术涉及人工智能领域,尤其涉及一种文本聚类图片识别方法、装置和系统。

技术介绍

[0002]随着人工智能技术的发展,文本智能识别和图片智能识别已经广泛应用于多个场景,由于人工智能算法的特点,文本识别相对简单,但对于图片识别来说速度较慢,特别是对于大量图片识别的场景下,有些更需要提高识别图片的准确度,降低图片识别错误率以及对假冒图片信息的识别,光靠提高硬件设备的性能难以满足,实时处理的场景也很难得到很好的用户体验。

技术实现思路

[0003]针对上述缺陷,本专利技术要解决的技术问题是如何快速准确地识别图片,尤其是对图片真实性进行评估。
[0004]针对上述缺陷,本专利技术的目的在于提供一种文本聚类图片识别方法、系统及电子设备、计算机存储介质和程序产品。
[0005]本专利技术提供一种文本聚类图片识别方法,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
[0006]优选的,正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。
[0007]优选的,正常手机自带相机软件被聚成一个大类,而风险软件出现在样本点稀少的类中。
[0008]优选的,类内风险计算,计算类内指标,定位存在风险的类。
[0009]优选的,上述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。
[0010]优选的,上述方法对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
[0011]优选的,上述方法对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
[0012]本专利技术提供一种文本聚类图片识别系统,包括服务器端、客户端和互联网平台,用户通过所述客户端提交图片,所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和
去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
[0013]优选的,上述服务器端对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。
[0014]优选的,上述互联网平台对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。
[0015]本专利技术提供一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
[0016]本专利技术提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述方法的步骤。
[0017]本专利技术提供一种电子设备,包括:处理器;以及被设置成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。
[0018]本专利技术通过算法将处理软件文本进行向量化并聚类,能够自动将原生相机软件信息和风险处理软件进行区分,极大地减少了风险研判所需的人力,克服了依赖主观经验、风险挖掘对抗性差等问题,大大降低了风险研判的工作量,提升了风险攻防中的对抗性。同时风险预警后的评估研判结果会进一步更新软件安全/风险软件信息名单,形成优化迭代闭环,辅助业务在案件调查、审核的过程中及时采取措施。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1示出了本专利技术文本聚类图片识别方法一实施例流程示意图;图2示出了本专利技术文本聚类图片识别方法另一实施例流程示意图;图3示出了本专利技术文本聚类图片识别系统一实施例架构示意图;
图4示出了本专利技术文本聚类图片识别电子设备一实施例架构示意图。
具体实施方式
[0021]下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。
[0022]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0023]如图1所示,本说明书提供一种文本聚类图片识别方法的实施例,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本聚类图片识别方法,用于服务器端,对输入的图片进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息;将同一机型下的去重后的处理软件文本输入LDA模型,根据词数预设好主题的个数后,所述LDA模型基于贝叶斯概率最大化得出每个处理软件文本的主题分布和每个主题中词的分布,生成每个文本对应的词频向量;对于不同处理软件文本进行聚类,预设好类内最大距离后,所述LDA模型将计算词频向量间的距离并由密度可达关系导出的最大密度相连的样本集合,生成最终聚类的类别,遍历所有机型的所有处理软件文本,对照风险软件名单得出风险预警结果。2.根据权利要求1所述的文本聚类图片识别方法,正常手机自带相机软件,软件信息不完全一致,符合一定的编码规律。3.根据权利要求2所述的文本聚类图片识别方法,正常手机自带相机软件被聚成一个大类,而风险软件出现在样本点稀少的类中。4.根据权利要求1所述的文本聚类图片识别方法,类内风险计算,计算类内指标,定位存在风险的类。5.根据权利要求4所述的文本聚类图片识别方法,所述类内指标包括样本点的数量、模式种类、已知安全软件占比、已知风险软件占比。6.根据权利要求1

5之一所述的文本聚类图片识别方法,所述方法对于疑似风险的类中的软件信息,使用当前已知的安全软件名单和风险软件名单进行过滤。7.根据权利要求1

5之一所述的文本聚类图片识别方法,所述方法对得到的风险预警的结果进行分析,若排除风险则更新至安全软件名单;若确认风险,则更新至风险软件名单。8.一种文本聚类图片识别系统,包括服务器端、客户端和互联网平台,用户通过所述客户端提交图片,所述互联网平台,收集用户输入的图片并进行可交换图像文件格式信息的提取和去重,解析得出图片的处理软件、相机机型以及图像生成模式信息,并传输给服务器端,所述服务器端将同一机型下的去重后的处理软件文本输...

【专利技术属性】
技术研发人员:陈冠伟
申请(专利权)人:北京好欣晴移动医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1