基于文本和图像相似度防止项目重复申报的方法技术

技术编号:26845608 阅读:25 留言:0更新日期:2020-12-25 13:07
本发明专利技术公开了一种基于文本和图片相似度防止项目重复申报的方法,属于查重技术领域,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。本发明专利技术基于项目文档中的图片和文本摘要分别与数据库中的项目文档中的图片和文本摘要进行相似度对比,若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。本发明专利技术用于防止项目重复申报。

【技术实现步骤摘要】
基于文本和图像相似度防止项目重复申报的方法
一种基于文本和图片相似度防止项目重复申报的方法,用于防止项目重复申报,属于查重

技术介绍
财政产业发展资金是专门用于支持特定行业、产业发展而设立的专项资金,每年各地企事业单位都会向当地科技厅(局)、经信厅(局)、商务厅(局)等厅局申报财政产业发展资金,以支持本单位重大重点项目的发展。各企事业单位在申报发展资金的时候,需要上报项目立项情况,详细介绍项目的技术指标(产品参数)、经济指标;项目研究主要目标、相关内容、技术关键、技术路线和应用方案等信息,这些信息有文字的,有表格的,也有图片(如技术架构、技术方案等)。每个单位根据项目所属,可以向不同的厅局申报项目,为了防止项目的重复申报、多头申报,项目的相似度识别就显得非常重要。以前传统的方法是人工来进行判断,但是工作量大,效率低下,而且主观性强,不够客观。针对上述问题,现有技术中并没有公开采用图片相似度比较的方式来防止项目的重复申报,哪怕采用图片相似度比较的方式来防止项目的重复申报,仍然存在如下问题:传统的图片相似度比较都是基于图片本身的,比如图像转换为灰度图后比较图片的轮廓来判断二幅图是否相似,这种方法对于项目中的技术方面的图片不太适用,且对比结果的精确率低,因为两幅图片的轮廓特征不相似,但是可能表达的是基本相同的内容。
技术实现思路
针对上述研究的问题,本专利技术的目的在于提供了一种基于文本和图片相似度防止项目重复申报的方法,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。为了达到上述目的,本专利技术采用如下技术方案:一种基于文本和图片相似度防止项目重复申报的方法,如下步骤:S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。进一步,所述S1的具体步骤为:S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;S1.2、基于Opencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报申报编号存储在数据库中,其中,间隔特征为各文本元素之间连续的空格、连接线段或连接箭头线,连续的空格、连接线段和连接箭头线分别代表一个步数间隔。进一步,所述S2的具体步骤为:S2.1、基于结巴分词原理,将待比较的两文本序列进行分词;S2.2、将分词后的两文本序列分别转化成N维空间向量,即用词频作为各分词的权重,图片中的流程步骤数放在向量的最后一维,形成N维空间向量;S2.3、利用余弦相似度计算出待比较的两个文本序列的向量的相似度大小,若相似度达到设定的阈值则找到相似图片,并停止比较,否则,继续比较,直到与数据库中的数据全部比较完;通过余弦相似度计算余弦值,即相似度值,即两个向量间的余弦值通过欧几里得点积公示求出,具体如下:其中,A是项目文档中各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量,B是数据库中原已保存的项目文档中的各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量;Ai,Bi分别代表空间向量A和B的各分量,Cos(θ)的值就可以用来判断A,B两个空间向量的相似度的大小,即相似度值,取值在[0,1]之间,值越大表示相似度越高。进一步,所述S4中,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度的具体步骤为:S4.1、若达到阈值的图片为一幅时,将图片对应的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值;S4.2、若达到阈值的图片为两幅以上时,将各图片对应的相似度值乘以0.1再相加,得到所有图片的相似度值,将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值。进一步,所述S4.2中,达到阈值的图片超过十幅时,取相似度最大的十幅图片。本专利技术同现有技术相比,其有益效果表现在:一、本专利技术基于项目文档中的图片来抽取文本序列和文本序列中各文本元素间的间隔总数,并将其与数据库中文本序列和文本序列中各文本元素间的间隔总数转换成向量进行相似度对比来防止项目的重复申报和多头申报,其工作量少,效度高,且判断的准确性高。附图说明图1为本专利技术中的流程示意图;图2为本专利技术中项目文档中的图片。具体实施方式下面将结合附图及具体实施方式对本专利技术作进一步的描述。一种基于文本和图片相似度防止项目重复申报的方法,如下步骤:S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;具体步骤为:S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;S1.2、基于Opencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;OpenCV是一个基于BSD许可(开源)发行的跨本文档来自技高网...

【技术保护点】
1.一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,如下步骤:/nS1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;/nS2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;/nS3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;/nS4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。/n...

【技术特征摘要】
1.一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;
S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。


2.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S1的具体步骤为:
S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;
S1.2、基于0pencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;
S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报申报编号存储在...

【专利技术属性】
技术研发人员:罗益军李建军李代俊罗艾刘澜李钢
申请(专利权)人:四川财经职业学院成都金税电子技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1