一种基于教辅书籍出版的排版文档内容自查重方法技术

技术编号：25346529 阅读：128 留言：0更新日期：2020-08-21 17:05

一种基于教辅书籍出版的排版文档内容自查重方法，包括如下步骤：步骤(1)：以二进制方式读入排版文档；步骤(2)：对二进制行序列W

全部详细技术资料下载

【技术实现步骤摘要】
一种基于教辅书籍出版的排版文档内容自查重方法
本专利技术属于书籍出版文档处理和自然语言处理领域，具体涉及一种基于教辅书籍出版的排版文档内容自查重方法。
技术介绍
书籍作为信息的载体，在社会生活中占有着十分重要的地位，特别是在科教文化领域，教辅书籍出版的质量尤为重要。在教辅书籍编辑过程中，往往是多名编辑共同完成，不免会出现重复的内容或者题目等信息，如果不对这些重复信息进行后期查重，必然会对书籍出版质量产生影响。因此，充分利用自然语言处理手段和计算机数据处理能力，实现书籍中重复信息准确查重，在保证书籍出版质量方面具有重要意义。目前，用于文档内容查重的方法主要分为两种：一种是根据关键字先手动查找后人工查重；另一种是根据句子通过关键词、余弦相似度等模糊算法进行查重。根据关键字先手动查找后人工查重在实际应用中浪费大量人力，工作效率低，这种方法已经逐渐衰弱。根据句子通过关键词、余弦相似度等模糊算法进行查重，其主要用于论文查重，最突出的算法是知网的模糊查重算法，其通过忽略两句话中无意义的词，计算有意义词的重复数量，重复数量在超过所...

【技术保护点】
1.一种基于教辅书籍出版的排版文档内容自查重方法，其特征在于，包括如下步骤：/n步骤(1)：以二进制方式读入排版文档，按顺序读取排版文档每行内容组成二进制行序列

【技术特征摘要】
1.一种基于教辅书籍出版的排版文档内容自查重方法，其特征在于，包括如下步骤：
步骤(1)：以二进制方式读入排版文档，按顺序读取排版文档每行内容组成二进制行序列其中，n表示文档行数，表示第n行二进制序列；
步骤(2)：对步骤(1)中得到的二进制行序列Wrb进行预处理，以新的标识字符替换不能通过GBK标准解码的字符，并删除每行末尾的换行符，通过GBK标准解码得到解码后的行序列W＝{w1,w2,…,wn}，然后通过字符全角转半角算法进行转换，在每行前加上标识序号，即W′＝{[1]+w1,[2]+w2,…,[n]+wn}，然后拼接每行得到字符串S＝[1]+w1+[2]+w2+…+[n]+wn；
步骤(3)：对步骤(2)中得到的字符串S进行处理，根据排版文档中的书版命令〖BP〗设计正则表达式，利用正则表达式删除不参与排版的内容；其中，书版命令〖BP〗表示指定内容不参与排版；
步骤(4)：分别根据排版文档中的书版命令〖BG〗和〖FC〗、〖FY〗、〖JG〗的命令利用正则表达式分别提取字符串S中表格字符串T＝{t1,t2,…,ti}和公式字符串F＝{f1,f2,…,fj}，其中，i和j分别表示表格和公式的序号；书版命令〖BG〗表示排表格，〖FC〗表示排方程式、〖FY〗表示排化学方程式、〖JG〗表示排化学结构式；
步骤(5)：步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′，其中S′＝S-T-F，根据章节、题号、答案、解析、栏目的内容将字符串S′分割为多个题目，得到集合Q＝{q1,q2,…,qk}，其中k表示题目序号；
步骤(6)：对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重；
步骤(7)：步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。

2.根据权利要求1所述的基于教辅书籍出版的排版文档内容自查重方法，其特征在于，所述步骤(4)和步骤(5)中，通过书版命令和自然语言处理对排版文档进行处理，将表格内容进行细分为多条内容；通过书版命令提取的公式视为一个整体；以章节、题号、答案、解析、栏目的标识内容进行题...

【专利技术属性】
技术研发人员：张泉，
申请(专利权)人：世纪金榜集团股份有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人