一种论文质量检测方法、装置和设备制造方法及图纸

技术编号:32791827 阅读:16 留言:0更新日期:2022-03-23 19:53
本发明专利技术的实施例提供了一种论文质量检测方法、装置和设备。所述方法包括获取论文的文档数据;若文档数据的扩展名符合预设扩展名格式,则将论文的文档结构与预设模板中的文档结构进行比对,记录结构比对结果;否则输出文档数据的格式异常;对文档数据中的程序代码块进行识别,记录代码块识别结果;对文档数据中的隐藏字符和/或特殊字符进行识别,记录异常字符识别结果;将文档数据中的格式信息与预设模板中规定的格式进行比对,记录格式比对结果;对文档数据中的语法错误和字符错误进行识别,记录错误字符识别结果。以此方式,可以对论文的质量进行多维度的检测,更加详细、准确的获取论文质量缺陷,为论文整体质量评价提供数据支撑。支撑。支撑。

【技术实现步骤摘要】
一种论文质量检测方法、装置和设备


[0001]本专利技术一般涉及文档检测领域,并且更具体地,涉及一种论文质量检测方法、装置和设备。

技术介绍

[0002]当前论文的质量检测技术研究及发展主要集中在如下三个方向,一种是针对论文的学术水平的检测,这种一般都是采用算法分析论文内容,得出结论;另一种是单纯针对论文格式的检测,即通过将待检测论文的格式与论文模板的格式进行对比,得出对比结果;第三个方向就是查重,应用海量论文数据库,进行对比,得出重复度,来衡量论文的质量。这些论文检测方法,虽然能够从各自的方向检测论文的质量,但针对学位论文的质量,特别是本科阶段的学位论文,学校和教育主管部门更关心的方面是:论文的整体结构是否合理,论文的格式是否满足要求,论文的书写方法是否规范,论文的语法和错别字是否控制在一定程度。目前,还缺少能够从上述方面实现论文质量检测的方法。

技术实现思路

[0003]根据本专利技术的实施例,提供了一种论文质量检测方案。本方案对论文的质量进行多维度的检测,更加详细、准确的获取论文质量缺陷,为论文整体质量评价提供数据支撑。
[0004]在本专利技术的第一方面,提供了一种论文质量检测方法。该方法包括:
[0005]获取论文的文档数据;
[0006]判断所述文档数据的扩展名是否符合预设扩展名格式,若是,则将所述论文的文档结构与预设模板中的文档结构进行比对,记录结构比对结果;否则输出所述文档数据的格式异常;
[0007]对所述文档数据中的程序代码块进行识别,记录代码块识别结果;
[0008]对所述文档数据中的隐藏字符和/或特殊字符进行识别,记录异常字符识别结果;
[0009]将所述文档数据中的格式信息与预设模板中规定的格式进行比对,记录格式比对结果;
[0010]对所述文档数据中的语法错误和字符错误进行识别,记录错误字符识别结果。
[0011]进一步地,所述将所述论文的文档结构与预设模板中的文档结构进行比对,包括:
[0012]识别所述论文的文档结构中的若干结构以及结构顺序,判断所述结构以及结构顺序是否与预设模板中的文档结构以及结构顺序一致,若一致,则结构比对结果记录为论文主体结构正常;否则结构比对结果记录为论文主体结构异常。
[0013]进一步地,所述对所述文档数据中的程序代码块进行识别,包括:
[0014]将所述文档数据拆分为若干个段落文本;
[0015]获取一所述段落文本,若所述段落文本中包含预设的单行注释数据集中的单行注释标识,且所述单行注释标识在所述段落文本的起始位置,则所述段落文本为单行注释代码块;若所述段落文本中不包含预设的数据库中单行注释数据集中的单行注释标识,或所
述段落文本中包含的单行注释标识在所述段落文本的非起始位置,则判断所述段落文本中是否包含预设的数据库中多行注释数据集中的注释起始标识;
[0016]若所述段落文本中包含预设的多行注释数据集中的注释起始标识,且所述注释起始标识在所述段落文本的起始位置,则依次获取所述段落文本的下一段落文本,并判断当前段落文本的下一段落文本的结束位置是否为所述注释起始标识对应的注释结束标识,若是,则所述注释起始标识与所述注释结束标识之间的段落文本为多行注释代码块;若所述段落文本中不包含预设的数据库中多行注释数据集中的注释起始标识,或所述段落文本中包含的注释起始标识在所述段落文本的非起始位置,则判断所述段落文本中是否包含英文字符;
[0017]当所述段落文本的起始位置为英文字符时,若所述段落文本中包含预设的关键词数据集中的关键词,且所述关键词在预设位置,则将所述段落文本为代码块记录为代码块识别结果;否则所述段落文本为非代码块;
[0018]若所述段落文本不为单行注释代码块、多行注释代码块,且所述段落文本的起始位置为非英文字符时,所述段落文本为非代码块;
[0019]所述单行注释数据集为根据所述段落文本的编程语言类型,从数据库中获取所述编程语言对应的单行注释标识的集合;所述多行注释数据集为根据所述段落文本的编程语言类型,从数据库中获取所述编程语言对应的多行注释标识的集合;所述关键词数据集为根据所述段落文本的编程语言类型,从数据库中获取所述编程语言对应的关键词的集合。
[0020]进一步地,所述将所述文档数据拆分为若干个段落文本,包括:
[0021]识别所述文档数据中的段落换行符,以所述段落换行符作为拆分标识对所述文档数据进行段落拆分,得到拆分后的段落文本;
[0022]若所述拆分后的段落文本中存在未换行的图片或表格,则将所述图片或表二次拆分成独立段落;
[0023]若所述拆分后的段落文本中存在字体或字号与上下文中字体或字号不同,则对所述不同的字体或字号形成的文本进行二次拆分,形成独立段落。
[0024]进一步地,还包括:
[0025]若所述注释起始标识与所述注释结束标识之间的段落文本个数大于预设的段落数阈值,和/或
[0026]若所述注释起始标识与所述注释结束标识之间的字符数大于预设的字符数阈值,则所述注释起始标识与所述注释结束标识之间的段落文本不为多行注释代码块。
[0027]进一步地,所述对所述文档数据中的隐藏字符和/或特殊字符进行识别,包括:
[0028]将清除格式检查设置的文档数据作为目标文档,将所述目标文档拆分为若干个数据单元,使每个所述数据单元中只包含一种属性数据;
[0029]当所述数据单元为图片或表格时,若所述数据单元中不存在数据,则将所述数据单元存在空白图片或空表格记录为异常字符识别结果;若所述数据单元中存在特殊标记的干扰字符,则将所述数据单元存在干扰字符记录为异常字符识别结果;
[0030]当所述数据单元为字符文本时,若所述数据单元的字符文本中存在特殊标记的干扰字符,则将所述数据单元存在干扰字符记录为异常字符识别结果;否则将所述字符文本在预设的word域代码库中进行匹配;若从所述word域代码库中匹配到相同的第一字符,则
判断所述第一字符在所述字符文本中的位置;若所述第一字符处于所述字符文本的起始位置,且所述第一字符的下一位字符为中文字符,则将所述第一字符为隐藏字符记录为异常字符识别结果;若所述第一字符处于所述字符文本的起始位置,且所述第一字符的后续字符为英文字符,则继续判断所述第一字符的下一位字符是否为空格,若是,则将所述第一字符为隐藏字符记录为异常字符识别结果。
[0031]进一步地,所述将所述文档数据中的格式信息与预设模板中规定的格式进行比对,记录格式比对结果,包括:
[0032]将所述数据文档拆分为若干个数据单元,使每个所述数据单元中只包含一种属性数据;
[0033]当所述数据单元为字符时,若所述字符包含的格式信息与预设模板中规定的格式信息不一致,则将所述数据单元记录为异常格式比对结果;
[0034]当所述数据单元为图片时,若所述图片的名称和位置与预设模板中的规定不一致,则将所述数据单元为异常格式比对结果;<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种论文质量检测方法,其特征在于,包括:获取论文的文档数据;判断所述文档数据的扩展名是否符合预设扩展名格式,若是,则将所述论文的文档结构与预设模板中的文档结构进行比对,记录结构比对结果;否则输出所述文档数据的格式异常;对所述文档数据中的程序代码块进行识别,记录代码块识别结果;对所述文档数据中的隐藏字符和/或特殊字符进行识别,记录异常字符识别结果;将所述文档数据中的格式信息与预设模板中规定的格式进行比对,记录格式比对结果;对所述文档数据中的语法错误和字符错误进行识别,记录错误字符识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述论文的文档结构与预设模板中的文档结构进行比对,包括:识别所述论文的文档结构中的若干结构以及结构顺序,判断所述结构以及结构顺序是否与预设模板中的文档结构以及结构顺序一致,若一致,则结构比对结果记录为论文主体结构正常;否则结构比对结果记录为论文主体结构异常。3.根据权利要求1所述的方法,其特征在于,所述对所述文档数据中的程序代码块进行识别,包括:将所述文档数据拆分为若干个段落文本;获取一所述段落文本,若所述段落文本中包含预设的单行注释数据集中的单行注释标识,且所述单行注释标识在所述段落文本的起始位置,则所述段落文本为单行注释代码块;若所述段落文本中不包含预设的数据库中单行注释数据集中的单行注释标识,或所述段落文本中包含的单行注释标识在所述段落文本的非起始位置,则判断所述段落文本中是否包含预设的数据库中多行注释数据集中的注释起始标识;若所述段落文本中包含预设的多行注释数据集中的注释起始标识,且所述注释起始标识在所述段落文本的起始位置,则依次获取所述段落文本的下一段落文本,并判断当前段落文本的下一段落文本的结束位置是否为所述注释起始标识对应的注释结束标识,若是,则所述注释起始标识与所述注释结束标识之间的段落文本为多行注释代码块;若所述段落文本中不包含预设的数据库中多行注释数据集中的注释起始标识,或所述段落文本中包含的注释起始标识在所述段落文本的非起始位置,则判断所述段落文本中是否包含英文字符;当所述段落文本的起始位置为英文字符时,若所述段落文本中包含预设的关键词数据集中的关键词,且所述关键词在预设位置,则将所述段落文本为代码块记录为代码块识别结果;否则所述段落文本为非代码块;若所述段落文本不为单行注释代码块、多行注释代码块,且所述段落文本的起始位置为非英文字符时,所述段落文本为非代码块;所述单行注释数据集为根据所述段落文本的编程语言类型,从数据库中获取所述编程语言对应的单行注释标识的集合;所述多行注释数据集为根据所述段落文本的编程语言类型,从数据库中获取所述编程语言对应的多行注释标识的集合;所述关键词数据集为根据所述段落文本的编程语言类型,从数据库中获取所述编程语言对应的关键词的集合。
4.根据权利要求3所述的方法,其特征在于,所述将所述文档数据拆分为若干个段落文本,包括:识别所述文档数据中的段落换行符,以所述段落换行符作为拆分标识对所述文档数据进行段落拆分,得到拆分后的段落文本;若所述拆分后的段落文本中存在未换行的图片或表格,则将所述图片或表二次拆分成独立段落;若所述拆分后的段落文本中存在字体或字号与上下文中字体或字号不同,则对所述不同的字体或字号形成的文本进行二次拆分,形成独立...

【专利技术属性】
技术研发人员:郭杨范萍李洪金郑庆新
申请(专利权)人:沈阳哲航信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1