一种基于教辅书籍出版的排版文档内容自查重方法技术

技术编号:25346529 阅读:128 留言:0更新日期:2020-08-21 17:05
一种基于教辅书籍出版的排版文档内容自查重方法,包括如下步骤:步骤(1):以二进制方式读入排版文档;步骤(2):对二进制行序列W

【技术实现步骤摘要】
一种基于教辅书籍出版的排版文档内容自查重方法
本专利技术属于书籍出版文档处理和自然语言处理领域,具体涉及一种基于教辅书籍出版的排版文档内容自查重方法。
技术介绍
书籍作为信息的载体,在社会生活中占有着十分重要的地位,特别是在科教文化领域,教辅书籍出版的质量尤为重要。在教辅书籍编辑过程中,往往是多名编辑共同完成,不免会出现重复的内容或者题目等信息,如果不对这些重复信息进行后期查重,必然会对书籍出版质量产生影响。因此,充分利用自然语言处理手段和计算机数据处理能力,实现书籍中重复信息准确查重,在保证书籍出版质量方面具有重要意义。目前,用于文档内容查重的方法主要分为两种:一种是根据关键字先手动查找后人工查重;另一种是根据句子通过关键词、余弦相似度等模糊算法进行查重。根据关键字先手动查找后人工查重在实际应用中浪费大量人力,工作效率低,这种方法已经逐渐衰弱。根据句子通过关键词、余弦相似度等模糊算法进行查重,其主要用于论文查重,最突出的算法是知网的模糊查重算法,其通过忽略两句话中无意义的词,计算有意义词的重复数量,重复数量在超过所规定的阈值时,判定两本文档来自技高网...

【技术保护点】
1.一种基于教辅书籍出版的排版文档内容自查重方法,其特征在于,包括如下步骤:/n步骤(1):以二进制方式读入排版文档,按顺序读取排版文档每行内容组成二进制行序列

【技术特征摘要】
1.一种基于教辅书籍出版的排版文档内容自查重方法,其特征在于,包括如下步骤:
步骤(1):以二进制方式读入排版文档,按顺序读取排版文档每行内容组成二进制行序列其中,n表示文档行数,表示第n行二进制序列;
步骤(2):对步骤(1)中得到的二进制行序列Wrb进行预处理,以新的标识字符替换不能通过GBK标准解码的字符,并删除每行末尾的换行符,通过GBK标准解码得到解码后的行序列W={w1,w2,…,wn},然后通过字符全角转半角算法进行转换,在每行前加上标识序号,即W′={[1]+w1,[2]+w2,…,[n]+wn},然后拼接每行得到字符串S=[1]+w1+[2]+w2+…+[n]+wn;
步骤(3):对步骤(2)中得到的字符串S进行处理,根据排版文档中的书版命令〖BP〗设计正则表达式,利用正则表达式删除不参与排版的内容;其中,书版命令〖BP〗表示指定内容不参与排版;
步骤(4):分别根据排版文档中的书版命令〖BG〗和〖FC〗、〖FY〗、〖JG〗的命令利用正则表达式分别提取字符串S中表格字符串T={t1,t2,…,ti}和公式字符串F={f1,f2,…,fj},其中,i和j分别表示表格和公式的序号;书版命令〖BG〗表示排表格,〖FC〗表示排方程式、〖FY〗表示排化学方程式、〖JG〗表示排化学结构式;
步骤(5):步骤(4)中表格和公式提取完成后剩余的字符串为题目字符串S′,其中S′=S-T-F,根据章节、题号、答案、解析、栏目的内容将字符串S′分割为多个题目,得到集合Q={q1,q2,…,qk},其中k表示题目序号;
步骤(6):对步骤(4)和步骤(5)中得到的表格字符串集合T、公式字符串集合F和题目字符串集合Q分别利用改进的编辑距离相似度算法进行查重;
步骤(7):步骤(6)中得到的重复表格及其对应行号、重复公式及其对应行号、重复题目及其对应行号即为输出的查重结果。


2.根据权利要求1所述的基于教辅书籍出版的排版文档内容自查重方法,其特征在于,所述步骤(4)和步骤(5)中,通过书版命令和自然语言处理对排版文档进行处理,将表格内容进行细分为多条内容;通过书版命令提取的公式视为一个整体;以章节、题号、答案、解析、栏目的标识内容进行题...

【专利技术属性】
技术研发人员:张泉
申请(专利权)人:世纪金榜集团股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1