电子缩略书生成方法、电子设备及计算机存储介质技术

技术编号:18289437 阅读:29 留言:0更新日期:2018-06-24 04:07
本发明专利技术公开了一种电子缩略书生成方法、电子设备及计算机存储介质,用于生成缩略版的电子书。其中方法包括:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。由此可见,本发明专利技术方案考虑到了人工生成缩略电子书的效率及电子书内容的会受到编辑者主观意识的影响,而提出一种通过自然语言处理技术从词性的角度对电子书内容进行删减的电子缩略书生成方式,提高了电子缩略书生成效率,降低人工成本,使电子书的内容保持客观性。

【技术实现步骤摘要】
电子缩略书生成方法、电子设备及计算机存储介质
本专利技术涉及计算机
,具体涉及一种电子缩略书生成方法、电子设备及计算机存储介质。
技术介绍
目前,随着现代人生活节奏加快,人们越来越希望能够在较短的时间内获取尽可能多的有价值的信息,对电子书中的内容进行提炼则是一种有效的实现方式。提炼电子书内容的方式主要有两种,包括录制视频、音频,由主讲人用十分钟讲完一本书,和以文字形式将电子书浓缩成半小时、一小时不等的缩略书籍,供用户阅读。但是,由人工阅读书籍全部内容,进行内容概括总结,编辑出一本缩略版书籍的产出效率较低(例如拿铁阅读一周才推出一两本短书),耗时较长,不能满足用户的阅读需求;而且人力成本很高,会增加电子缩略书出版平台投入成本。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的电子缩略书生成方法、电子设备及计算机存储介质。根据本专利技术的一个方面,提供了一种电子缩略书生成方法,用于提炼电子书内容,生成电子缩略书,该方法包括:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。根据本专利技术的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。根据本专利技术的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行以下操作:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。根据本专利技术的电子缩略书生成方法、电子设备及计算机存储介质,提供了一种高效且客观的电子缩略书生成方式,由于这种方式是通过自然语言处理技术从词性的角度对电子书内容进行删减,无需人工操作,因此,可以提高生成电子缩略书的效率,降低人工成本,提炼的电子书内容不会受编辑者的主观意识影响,也不会对故事的结构、框架、情节、事件等做整体的丢弃。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例一提供的电子缩略书生成方法的流程图;图2示出了本专利技术实施例二提供的电子缩略书生成方法的流程图;图3示出了本专利技术实施例三提供的电子缩略书生成方法的流程图;图4示出了根据本专利技术实施例五提供的一种电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。实施例一图1示出了本专利技术实施例一提供的电子缩略书生成方法的流程图,用于提炼电子书内容,生成电子缩略书。如图1所示,该方法包括以下步骤:步骤S101,确定电子书中包含的各词语,以及各词语的词性。具体的,本专利技术主要是从词性的角度对电子书书籍中不重要的字词进行剔除,从而达到缩短电子书籍字数的目的,其中,不重要的字词是指在剔除后不影响原文理解或对原文理解影响不大、剔除后不影响阅读通顺程度或通顺程度影响不大、剔除后不损失原文信息量或信息量损失不大的字词。采用的是自然语言处理技术,由机器自动执行,即可获得缩减后的短书。特别是对于小说类型的书籍,相比于重点着眼于通过滤掉书籍的主线脉络、故事情节、事件背景、人物对话等信息,提炼总结书籍中的观点、结论或思维方式的人工提取方式,仅在字词层面对书籍内容进行的缩略处理,不对故事的结构、框架、情节、事件等做整体的丢弃,可以在缩短书籍的基础上对书籍内容做原汁原味的保留,可以还原阅读本身的意义;此外,还可以使书籍的内容能够得到客观的表达。这是因为不同的人或平台对事物的认知会有不同的立场、观点和认知能力,导致人工提取的电子缩略书会存在不同程度的意识导向(例如影评中经常出现对同一主人公正反派的不同定论),这种导向可能是错误的,在少数情况下也可能是别有用心的,无法对书籍中的观点和立场进行客观表达。因此,在获取电子书原文内容后,首先在本步骤中确定电子书中包含的各词语,以及各词语的词性。具体的,在中文字词的词性分类中包括实词和虚词两类,其中,实词又进一步包括:名词、动词、形容词、数词、量词、代词;虚词进一步包括:副词、介词、连词、助词、叹词、拟声词。不同种类的词性又可能存在进一步的分类,例如副词可以包括:程度副词、范围副词、时间/频率副词、肯定副词、否定副词、情态/方式副词、语气副词、地点副词等。可选的,通过分词工具对电子书进行分词,得到所述电子书中包含的各词语;依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。其中,分词工具可以是StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、paoding、imdict等现有分词工具中一种,特别是imdict的分词原理是基于隐马尔可夫模型。隐马尔可夫模型(HiddenMarkovModel,HMM)是一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。通常,分词工具的处理速度在几十万字每秒,一些分词工具的处理速度还能够达到百万字每秒以上,文字处理效率高。词性标注模型也是基于隐马尔可夫模型,以大量的词汇作为学习样本,通过机器学习过程训练而得到的一个模型,在本专利技术中用于将电子书中包含的各词语进行词性标注。步骤S102,从所述电子书中删除属于目标类型词性的词语。本专利技术中,由于目录中的信息比较重要,缩略后会影响理解,而且目录字数不多,缩略贡献不大,因此,从电子书中删除属于目标类型词性的词语是指从所述电子书中除目录以外的其他文字中删除目标类型词性的词语。本步骤中,可以预先按照删除后语义损失程度的大小对待删除的各类型词性进行分类,并按照损失程度对各类型词性进行排序,或者说可以预先确定损失程度与类型词性之间的关联关系。进而可以依据缩略书的目标损失程度,以及损失程度与类型词性之间的关联关系确定目标类型词性,如若目标损失程度最小,则可以将删除后对语义影响程度最小的形容词作为目标类型词性。本步骤中,也可以直接获取用户输入的至少一种目标类型词性,并从电子数据中删除属于目标类型词性的词语。步骤S103,顺序连接剩余的词语得到缩略书。具体的,当删除了电子书中的目标类型的词语时,将电子书中的剩余词语顺序连接,即可得到缩略书,进而保存,以供用户阅读。可选的,将电子书中的词语按照词性以及各词性删除后对语义的影响程度分为三类,也即词性类型的删除顺序,第一类型词性本文档来自技高网...
电子缩略书生成方法、电子设备及计算机存储介质

【技术保护点】
1.一种电子缩略书生成方法,包括:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。

【技术特征摘要】
1.一种电子缩略书生成方法,包括:确定电子书中包含的各词语,以及各词语的词性;从所述电子书中删除属于目标类型词性的词语;顺序连接剩余的词语得到缩略书。2.根据权利要求1所述的方法,其中,在所述顺序连接剩余的词语得到缩略书之前,所述方法进一步包括:依据所述电子书的剩余字数确定是否满足缩略书生成条件;若不满足,则确定新的目标类型词性,并返回执行词语删除操作,直到满足所述缩略书生成条件为止。3.根据权利要求1所述的方法,其中,确定电子书中包含的各词语,以及各词语的词性,包括:对所述电子书进行分词得到所述电子书中包含的各词语;依据预先基于隐马尔科夫模型训练生成的词性标注模型对所述电子书中包含的各词语进行词性标注。4.根据权利要求2所述的方法,其中,确定新的目标类型词性,包括:按照预先确定的词性类型删除顺序,将所述目标类型词性的下一类型词性作为新的目标类型词性。5.根据权利要求4所述的方法,其中,所述词性类型删除顺序中第一类型词性是形容词,第二类型词性包括数词、量词和代词中的至少一个,第三类型词性包括副词、介词、助词、叹词和拟声词中的至少一个。6.根据权利要求2所述的方法,其中,依据所述电子书的剩余字数确定是否满足缩略书生成条件,包括:依据所述电子书的剩余字数和用户的平均阅读速度,确定剩...

【专利技术属性】
技术研发人员:郑志伟韩飞陈继良
申请(专利权)人:掌阅科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1