一种基于词频的数字出版物词汇抽取方法技术

技术编号:17248410 阅读:44 留言:0更新日期:2018-02-11 06:34
本发明专利技术公开了一种基于词频的数字出版物词汇抽取方法,其减少了按章节、页码抽取数字出版物中词汇所花费的计算量,便于各词汇在重新排版后实现快速无误地页码定位,提高了出版工作效率。此方法包括步骤:判断待出版的数字出版物的语言以及其阅读等级,根据判断结果调取对应的高频词典、中频词典和低频词典;将数字出版物的原始文档转换成XML格式文档,通过排版XML格式文档获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并保存为文档副本;对文档副本进行词汇抽取,生成高频词汇表、中频词汇表、低频词汇表和新增词汇表:词汇抽取完成,数字出版物等待出版。

【技术实现步骤摘要】
一种基于词频的数字出版物词汇抽取方法
本专利技术涉及一种基于词频的数字出版物词汇抽取方法,属于数字出版

技术介绍
人类已经进入数字出版时代,数字出版平台和电子读物自身的数字化特点,使利用各种现代技术为读者提供包括娱乐和辅助学习功能的新型有效服务成为可能。多媒体技术与人工智能研究领域成果的引用,如自然语言处理等,不仅给数字化出版带来信息载体、读物来源和阅读方式的改变,而且会使人们在阅读过程中的学习方式、学习效果等发生很多新的变化。词汇是语言学习和阅读的基础,在超前阅读和外文阅读时,很多时候由于词汇所产生的阅读挫折阻碍或减缓了读者进入熟练阅读的阶段,从而导致最终语言磨蚀严重,浪费了大量智力资源。而对于普通的熟练阅读,也会遇到某些出现概率极低的词汇。面对如何解决和缓解阅读中的生词问题,提高语言学习和阅读质量,目前已经提出在数字出版中对数字出版物提供词汇抽取服务的理念,其是指在数字出版过程中,把书籍原稿文档或各种其他文档(如影视或游戏对白)中读者可能不认识的生词提前抽取出来,给出解释,生成按词频分段,能按照章节、页码及其他分割单位进行查询筛选的词汇表放到出版平台上供下载,或形成适于本文档来自技高网...
一种基于词频的数字出版物词汇抽取方法

【技术保护点】
一种基于词频的数字出版物词汇抽取方法,其特征在于,它包括步骤:1)判断待出版的数字出版物的语言以及其属于初级读物、中级读物、高级读物中的哪种阅读等级读物,根据判断结果调取对应的高频词典、中频词典和低频词典,其中:按照章节排序的数字出版物为涉及一种语言且以空格分隔词汇的语言文本;2)将数字出版物的原始文档转换成XML格式文档,通过对XML格式文档进行排版来获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并将XML格式文件保存为数字出版物的文档副本;3)对文档副本进行词汇抽取,生成高频词汇表、中频词汇表、低频词汇表和新增词汇表:3‑1)基于高频词典,抽取文档副本中的高频词汇:对高频词典...

【技术特征摘要】
1.一种基于词频的数字出版物词汇抽取方法,其特征在于,它包括步骤:1)判断待出版的数字出版物的语言以及其属于初级读物、中级读物、高级读物中的哪种阅读等级读物,根据判断结果调取对应的高频词典、中频词典和低频词典,其中:按照章节排序的数字出版物为涉及一种语言且以空格分隔词汇的语言文本;2)将数字出版物的原始文档转换成XML格式文档,通过对XML格式文档进行排版来获得页码标记,形成带有章节、段落和页码标记的XML格式文件,并将XML格式文件保存为数字出版物的文档副本;3)对文档副本进行词汇抽取,生成高频词汇表、中频词汇表、低频词汇表和新增词汇表:3-1)基于高频词典,抽取文档副本中的高频词汇:对高频词典中记录的各高频词汇,按词频由大到小的顺序逐个遍历文档副本进行查找,其中:在查找一个高频词汇时,当在文档副本中第一次查找到时,此高频词汇被记录到高频词汇表中并在文档副本中删除,但当此高频词汇再次在文档副本中查找到时,则不再被记录到高频词汇表中而在文档副本中直接删除;高频词典中的高频词汇按照词频大小降序排序;3-2)基于中频词典,抽取文档副本中的中频词汇:对中频词典中记录的各中频词汇,按词频由大到小的顺序逐个遍历文档副本进行查找,其中:在查找一个中频词汇时,当在文档副本的一个章节中第一次查找到时,此中频词汇被记录到中频词汇表中,标记此中频词汇所在章节号、所在页码号并累加词频,以及在文档副本中删除,当此中频词汇再次在同一章节中或其他章节中查找到时,则不再被记录到中频词汇表中,但累加词频,记录新出现的章节号和页码号,以及在文档副本中删除;中频词典中的中频词汇按照词频大小降序排序;3-3)对文档副本剩余词汇逐个进行抽取,直到遍历并抽取完所有词汇:若待抽取的词汇在低频词典中查找到,则此词汇被认为是低频词汇,记录到低频词汇表中,标记此低频词汇所在章节号、所在段落号和所在页码号并累加词频,以及在文档副本中删除;反之,此词汇被记录到新增词汇表中,标记此词汇...

【专利技术属性】
技术研发人员:孙继兰
申请(专利权)人:北京工商大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1