【技术实现步骤摘要】
基于文本和图像相似度防止项目重复申报的方法
一种基于文本和图片相似度防止项目重复申报的方法,用于防止项目重复申报,属于查重
技术介绍
财政产业发展资金是专门用于支持特定行业、产业发展而设立的专项资金,每年各地企事业单位都会向当地科技厅(局)、经信厅(局)、商务厅(局)等厅局申报财政产业发展资金,以支持本单位重大重点项目的发展。各企事业单位在申报发展资金的时候,需要上报项目立项情况,详细介绍项目的技术指标(产品参数)、经济指标;项目研究主要目标、相关内容、技术关键、技术路线和应用方案等信息,这些信息有文字的,有表格的,也有图片(如技术架构、技术方案等)。每个单位根据项目所属,可以向不同的厅局申报项目,为了防止项目的重复申报、多头申报,项目的相似度识别就显得非常重要。以前传统的方法是人工来进行判断,但是工作量大,效率低下,而且主观性强,不够客观。针对上述问题,现有技术中并没有公开采用图片相似度比较的方式来防止项目的重复申报,哪怕采用图片相似度比较的方式来防止项目的重复申报,仍然存在如下问题:传统的图片相似度比较都是基于图片本身的,比如图像转换为灰度图后比较图片的轮廓来判断二幅图是否相似,这种方法对于项目中的技术方面的图片不太适用,且对比结果的精确率低,因为两幅图片的轮廓特征不相似,但是可能表达的是基本相同的内容。
技术实现思路
针对上述研究的问题,本专利技术的目的在于提供了一种基于文本和图片相似度防止项目重复申报的方法,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工 ...
【技术保护点】
1.一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,如下步骤:/nS1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;/nS2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;/nS3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;/nS4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将 ...
【技术特征摘要】
1.一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报申报编号存储在数据库中;
S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。
2.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S1的具体步骤为:
S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;
S1.2、基于0pencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;
S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报申报编号存储在...
【专利技术属性】
技术研发人员:罗益军,李建军,李代俊,罗艾,刘澜,李钢,
申请(专利权)人:四川财经职业学院,成都金税电子技术有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。