【技术实现步骤摘要】
程序文档扫描方法及装置
[0001]本专利技术涉及金融
,具体地,涉及一种程序文档扫描方法及装置。
技术介绍
[0002]目前普遍只能人工审查程序文档,非人工审查仅可以检查是否有及写了多少,难以判断是否存在偷懒现象。人工审查需要投入大量人力,且对人员能力有一定要求(了解相关程序对应的内容)。而通过软件自动化(非人工)审查,则仅能判断是否有写,无法应对偷懒现象(目前实践中存在直接复制粘贴别的文档充数的偷懒现象)。
技术实现思路
[0003]本专利技术实施例的主要目的在于提供一种程序文档扫描方法及装置,以找出与代码内容不符的程序文档,避免偷懒现象,降低人力成本。
[0004]为了实现上述目的,本专利技术实施例提供一种程序文档扫描方法,包括:
[0005]获取程序文档的文档单词集合、程序文档的程序图文档文字集合、程序文档对应的代码文件的代码单词集合和代码文件的程序图代码文字集合;
[0006]将文档单词集合与代码单词集合进行近义词比对得到体现单词数量;
[0007]将程序图文档 ...
【技术保护点】
【技术特征摘要】
1.一种程序文档扫描方法,其特征在于,包括:获取程序文档的文档单词集合、程序文档的程序图文档文字集合、所述程序文档对应的代码文件的代码单词集合和所述代码文件的程序图代码文字集合;将所述文档单词集合与所述代码单词集合进行近义词比对得到体现单词数量;将所述程序图文档文字集合和所述程序图代码文字集合进行重复比对得到程序图不同名种数;根据所述程序图不同名种数、程序图文档文字集合的种数、预设的相似度系数、所述体现单词数量和所述文档单词集合确定相似度参数;根据所述相似度参数和预设的参数阈值的比较结果生成扫描结果。2.根据权利要求1所述的程序文档扫描方法,其特征在于,根据所述程序图不同名种数、程序图文档文字集合的种数、预设的相似度系数、所述体现单词数量和所述文档单词集合确定相似度参数包括:根据所述文档单词集合中各文档单词的重复数量和文档单词的种数确定修正系数;根据所述程序图不同名种数、程序图文档文字集合的种数、预设的相似度系数、所述修正系数、所述体现单词数量和文档单词集合的数量确定相似度参数。3.根据权利要求1所述的程序文档扫描方法,其特征在于,所述相似度系数包括类相似度系数、方法相似度系数和对象相似度系数,所述文档单词集合包括名词集合、动词集合和英文集合;所述程序图文档文字集合包括类集合、方法集合和对象集合;所述程序文档扫描方法还包括:根据所述类集合中各类单词的重复数量、类集合的种数、所述程序图文档文字集合的种数和名词集合的单词数量确定所述类相似度系数。4.根据权利要求3所述的程序文档扫描方法,其特征在于,还包括:根据所述方法集合中各方法单词的重复数量、方法集合的种数、所述程序图文档文字集合的种数和动词集合的单词数量确定所述方法相似...
【专利技术属性】
技术研发人员:林慕云,潘玉峰,刘姗姗,吴欢,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。