一种基于内容分析的智能匹配方法组成比例

技术编号:36455649 阅读:13 留言:0更新日期:2023-01-25 22:53
本发明专利技术公开了一种基于内容分析的智能匹配方法,涉及智能识别技术领域。本发明专利技术包括如下步骤:采集大量含有文本信息的照片或视频,构造数据集;利用训练集训练深度卷积神经网络;将待内容识别的文本信息拍摄图像发送至深度卷积神经网络;通过深度卷积神经网络得到文本的位置特征和多个幅度特征;将待内容识别的文本信息的多个幅度特征与文字幅度特征进行相似度计算;将幅度特征相似度得分从高到低排列;相似度最高的文本结合位置特征进行结果展示。本发明专利技术通过训练深度卷积网络来对图像进行文本位置特征和多个幅度特征识别,进行相似度计算,并获取相似度最高的文本结合位置特征进行展示,提高文本或者网络内容的匹配速率和准确度。确度。确度。

【技术实现步骤摘要】
一种基于内容分析的智能匹配方法


[0001]本专利技术属于智能识别
,特别是涉及一种基于内容分析的智能匹配方法。

技术介绍

[0002]多关键词匹配是计算机科学领域中的基本问题之一。其解决的问题是快速准确地判断某一文本或者数据块中是否包含给定的关键词集合中的某个或者某些关键词。多关键词匹配技术现在已经广泛应用到防火墙、病毒检测、入侵检测与防御、内容过滤等网络安全的各个领域,同时还可以扩展到其他学科,比如说信息管理系统,网络搜索引擎,生物信息学中的基因序列检测等等。因此对于多关键词匹配方法的研究和改进是很有实际意义的。
[0003]伴随互联网技术的飞速发展,多关键词匹配方法的研究遇到了新的挑战。网络攻击行为的日益复杂化,网络安全应用的关键词规模也随之不断扩大。根据CNCERT/CC的信息,现在网络内容及敏感信息过滤所用到的规则集一般是几万条,甚至达到十几万条。著名的开源反病毒软件clamAV的病毒特征库条目达到了49644条,而且还在不断地增长。基于和谐现状,本专利技术所定义的大规模关键词集指的是集合中关键词数达到1万以上。同时,随着网络带宽也不断增长,网络安全防御系统的处理能力也必须不断提高。作为核心技术,这也意味着多关键词匹配性能也要不断提高。事实是大多数网络安全系统的性能,尤其是一些实时处理系统,如病毒检测、流量统计分析、敏感信息过滤等等,还没有办法满足应用需求。以上两个现状揭示了进行面向大规模关键词集的高速多关键词匹配方法研究的必要性。
[0004]但是,通过对于WM算法流程的分析可以知道,关键词数量增加后,WM方法的跳跃表中跳跃值为零的项数会增多,平均跳跃值会随之减小,从而无法有效地避免匹配过程中大量不必要的字符比较,导致文本或者网络内容的匹配速度下降。实验结果表明,WM方法在关键词数达到10万的时候,匹配速度下降非常明显,极低的吞吐量已经很难满足文本或者网络内容处理的实用要求。

技术实现思路

[0005]本专利技术的目的在于提供一种基于内容分析的智能匹配方法,通过训练深度卷积网络来对图像进行文本位置特征和多个幅度特征识别,进行相似度计算,并获取相似度最高的文本结合位置特征进行展示,解决了现有的关键词匹配速度低、匹配正确率不足的问题。
[0006]为解决上述技术问题,本专利技术是通过以下技术方案实现的:
[0007]本专利技术为一种基于内容分析的智能匹配方法,包括如下步骤:
[0008]步骤S1:采集大量含有文本信息的照片或视频,构造数据集,将图像数据集换分为训练集和测试集;
[0009]步骤S2:利用训练集训练深度卷积神经网络;
[0010]步骤S3:将待内容识别的文本信息拍摄图像发送至深度卷积神经网络;
[0011]步骤S4:通过深度卷积神经网络得到文本的位置特征和多个幅度特征;
[0012]步骤S5:将待内容识别的文本信息的多个幅度特征与文字特征数据库中的幅度特
征进行相似度计算;
[0013]步骤S6:将幅度特征相似度得分从高到低依次排列;
[0014]步骤S7:相似度最高的文本结合位置特征进行结果展示。
[0015]作为一种优选的技术方案,所述步骤S1中,将图像训练所对应的分割标签分别表示在原始图像上,其中每张图像的字体进行分割图像标记为不同颜色,将每张图像的背景被标记为黑色,使每个原始训练图像样本对应一个分割图像。
[0016]作为一种优选的技术方案,所述步骤S2中,在训练集训练深度卷积神经网络的过程中,将训练图像对应的分割图像输入自编码神经网络的同时,将输入图像自身当作神经网络的训练目标,进行前向传播以后得到该分割图像对应的隐含表达,然后表达计算神经网络损失,最后反向传播更新全网网络权重,输入分割图像到神经网络,统一将输入图像的像素值从[0,225]映射到[0,1]的区间中,计算自编码神经网络损失层的损失函数。
[0017]作为一种优选的技术方案,所述步骤S3前,待内容识别的文本信息拍摄图像需要进行预处理后才能输入到深度卷积神经网络;所述预处理包括去噪处理、增强处理和裁剪处理。
[0018]作为一种优选的技术方案,所述步骤S3中,深度卷积神经网络将预处理后待内容识别的文本信息拍摄图像输入到深度卷积神经网络,利用深度卷积神经网络中的多个幅度特征分类损失函数计算文本信息拍摄图像对应的多个幅度特征的损失值。
[0019]作为一种优选的技术方案,所述步骤S4中,深度卷积神经网络得到文本的位置特征和多个幅度特征,将提取的位置特征和幅度特征送入神经网络中的分类器进行分类,计算位置特征的损失值和幅度特征的损失值;利用得到的位置特征的损失值和幅度特征的损失值,共同反向调节深度卷积神经网络中的所有权重,使得所有权重的加权损失和最低,完成对深度卷积神经网络的训练。
[0020]作为一种优选的技术方案,所述步骤S5中,将待内容识别的文本信息拍摄图像对应的多个幅度特征,与每张文字特征数据库中的幅度特征逐一进行比对并计算相似度,得到待内容识别的文本信息拍摄图像与文字特征数据库多个幅度特征相识度得分,对得到的多个幅度特征相似度得分;将得到的多个幅度特征相似度得分分别进行归一化处理后进行分数融合,得到待内容识别的文本信息拍摄图像与文字特征数据库的融合相似度得分。
[0021]作为一种优选的技术方案,所述步骤S6中,幅度特征相似度得分采用计算欧氏距离来判断,欧氏距离越小,则表示图像越相似,按照顺序返回制定数量相似图像,最后根据检索结果,选择文字特征数据库中对应的文字图片。
[0022]本专利技术具有以下有益效果:
[0023]本专利技术通过训练深度卷积网络来对图像进行文本位置特征和多个幅度特征识别,进行相似度计算,并获取相似度最高的文本结合位置特征进行展示,提高文本或者网络内容的匹配速率和准确度。
[0024]当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0025]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领
域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术的一种基于内容分析的智能匹配方法流程图;
[0027]图2为图像数据集处理流程图;
[0028]图3为深度卷积神经网络训练流程图。
具体实施方式
[0029]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0030]请参阅图1所示,本专利技术为一种基于内容分析的智能匹配方法,包括如下步骤:
[0031]步骤S1:采集大量含有文本信息的照片或视频,构造数据集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于内容分析的智能匹配方法,其特征在于,包括如下步骤:步骤S1:采集大量含有文本信息的照片或视频,构造数据集,将图像数据集换分为训练集和测试集;步骤S2:利用训练集训练深度卷积神经网络;步骤S3:将待内容识别的文本信息拍摄图像发送至深度卷积神经网络;步骤S4:通过深度卷积神经网络得到文本的位置特征和多个幅度特征;步骤S5:将待内容识别的文本信息的多个幅度特征与文字特征数据库中的幅度特征进行相似度计算;步骤S6:将幅度特征相似度得分从高到低依次排列;步骤S7:相似度最高的文本结合位置特征进行结果展示。2.根据权利要求1所述的一种基于内容分析的智能匹配方法,其特征在于,所述步骤S1中,将图像训练所对应的分割标签分别表示在原始图像上,其中每张图像的字体进行分割图像标记为不同颜色,将每张图像的背景被标记为黑色,使每个原始训练图像样本对应一个分割图像。3.根据权利要求1所述的一种基于内容分析的智能匹配方法,其特征在于,所述步骤S2中,在训练集训练深度卷积神经网络的过程中,将训练图像对应的分割图像输入自编码神经网络的同时,将输入图像自身当作神经网络的训练目标,进行前向传播以后得到该分割图像对应的隐含表达,然后表达计算神经网络损失,最后反向传播更新全网网络权重,输入分割图像到神经网络,统一将输入图像的像素值从[0,225]映射到[0,1]的区间中,计算自编码神经网络损失层的损失函数。4.根据权利要求1所述的一种基于内容分析的智能匹配方法,其特征在于,所述步骤S3前,待内容识别的文本信息拍摄图像需要进行预处理后才能输入到深度卷积神经网络;所述预处理包...

【专利技术属性】
技术研发人员:严峻孟祥磊侯颖王莉
申请(专利权)人:武汉佰思特信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1