一种论文质量检测方法、装置和设备制造方法及图纸

技术编号：32791827 阅读：16 留言：0更新日期：2022-03-23 19:53

本发明专利技术的实施例提供了一种论文质量检测方法、装置和设备。所述方法包括获取论文的文档数据；若文档数据的扩展名符合预设扩展名格式，则将论文的文档结构与预设模板中的文档结构进行比对，记录结构比对结果；否则输出文档数据的格式异常；对文档数据中的程序代码块进行识别，记录代码块识别结果；对文档数据中的隐藏字符和/或特殊字符进行识别，记录异常字符识别结果；将文档数据中的格式信息与预设模板中规定的格式进行比对，记录格式比对结果；对文档数据中的语法错误和字符错误进行识别，记录错误字符识别结果。以此方式，可以对论文的质量进行多维度的检测，更加详细、准确的获取论文质量缺陷，为论文整体质量评价提供数据支撑。支撑。支撑。

全部详细技术资料下载

【技术实现步骤摘要】
一种论文质量检测方法、装置和设备

[0001]本专利技术一般涉及文档检测领域，并且更具体地，涉及一种论文质量检测方法、装置和设备。

技术介绍

[0002]当前论文的质量检测技术研究及发展主要集中在如下三个方向，一种是针对论文的学术水平的检测，这种一般都是采用算法分析论文内容，得出结论；另一种是单纯针对论文格式的检测，即通过将待检测论文的格式与论文模板的格式进行对比，得出对比结果；第三个方向就是查重，应用海量论文数据库，进行对比，得出重复度，来衡量论文的质量。这些论文检测方法，虽然能够从各自的方向检测论文的质量，但针对学位论文的质量，特别是本科阶段的学位论文，学校和教育主管部门更关心的方面是：论文的整体结构是否合理，论文的格式是否满足要求，论文的书写方法是否规范，论文的语法和错别字是否控制在一定程度。目前，还缺少能够从上述方面实现论文质量检测的方法。

技术实现思路

[0003]根据本专利技术的实施例，提供了一种论文质量检测方案。本方案对论文的质量进行多维度的检测，更加详细、准确的获取论文质量缺陷，为论文整体质量评价提供数据支撑。
[0004]在本专利技术的第一方面，提供了一种论文质量检测方法。该方法包括：
[0005]获取论文的文档数据；
[0006]判断所述文档数据的扩展名是否符合预设扩展名格式，若是，则将所述论文的文档结构与预设模板中的文档结构进行比对，记录结构比对结果；否则输出所述文档数据的格式异常；
[0007]对所述文档数据中的程序代码块进行识别，记录代码块识别...

【技术保护点】

【技术特征摘要】
1.一种论文质量检测方法，其特征在于，包括：获取论文的文档数据；判断所述文档数据的扩展名是否符合预设扩展名格式，若是，则将所述论文的文档结构与预设模板中的文档结构进行比对，记录结构比对结果；否则输出所述文档数据的格式异常；对所述文档数据中的程序代码块进行识别，记录代码块识别结果；对所述文档数据中的隐藏字符和/或特殊字符进行识别，记录异常字符识别结果；将所述文档数据中的格式信息与预设模板中规定的格式进行比对，记录格式比对结果；对所述文档数据中的语法错误和字符错误进行识别，记录错误字符识别结果。2.根据权利要求1所述的方法，其特征在于，所述将所述论文的文档结构与预设模板中的文档结构进行比对，包括：识别所述论文的文档结构中的若干结构以及结构顺序，判断所述结构以及结构顺序是否与预设模板中的文档结构以及结构顺序一致，若一致，则结构比对结果记录为论文主体结构正常；否则结构比对结果记录为论文主体结构异常。3.根据权利要求1所述的方法，其特征在于，所述对所述文档数据中的程序代码块进行识别，包括：将所述文档数据拆分为若干个段落文本；获取一所述段落文本，若所述段落文本中包含预设的单行注释数据集中的单行注释标识，且所述单行注释标识在所述段落文本的起始位置，则所述段落文本为单行注释代码块；若所述段落文本中不包含预设的数据库中单行注释数据集中的单行注释标识，或所述段落文本中包含的单行注释标识在所述段落文本的非起始位置，则判断所述段落文本中是否包含预设的数据库中多行注释数据集中的注释起始标识；若所述段落文本中包含预设的多行注释数据集中的注释起始标识，且所述注释起始标识在所述段落文本的起始位置，则依次获取所述段落文本的下一段落文本，并判断当前段落文本的下一段落文本的结束位置是否为所述注释起始标识对应的注释结束标识，若是，则所述注释起始标识与所述注释结束标识之间的段落文本为多行注释代码块；若所述段落文本中不包含预设的数据库中多行注释数据集中的注释起始标识，或所述段落文本中包含的注释起始标识在所述段落文本的非起始位置，则判断所述段落文本中是否包含英文字符；当所述段落文本的起始位置为英文字符时，若所述段落文本中包含预设的关键词数据集中的关键词，且所述关键词在预设位置，则将所述段落文本为代码块记录为代码块识别结果；否则所述段落文本为非代码块；若所述段落文本不为单行注释代码块、多行注释代码块，且所述段落文本的起始位置为非英文字符时，所述段落文本为非代码块；所述单行注释数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的单行注释标识的集合；所述多行注释数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的多行注释标识的集合；所述关键词数据集为根据所述段落文本的编程语言类型，从数据库中获取所述编程语言对应的关键词的集合。
4.根据权利要求3所述的方法，其特征在于，所述将所述文档数据拆分为若干个段落文本，包括：识别所述文档数据中的段落换行符，以所述段落换行符作为拆分标识对所述文档数据进行段落拆分，得到拆分后的段落文本；若所述拆分后的段落文本中存在未换行的图片或表格，则将所述图片或表二次拆分成独立段落；若所述拆分后的段落文本中存在字体或字号与上下文中字体或字号不同，则对所述不同的字体或字号形成的文本进行二次拆分，形成独立...

【专利技术属性】
技术研发人员：郭杨，范萍，李洪金，郑庆新，
申请(专利权)人：沈阳哲航信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人