当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于图书内容的图书书后索引自动构建方法技术

技术编号:15329723 阅读:40 留言:0更新日期:2017-05-16 13:20
本发明专利技术公开了一种基于图书内容的图书书后索引自动构建方法。该方法首先分析数字化图书中的正文,以章节为单位,将文本用自然语言处理工具进行词性标注得到词性数组;再利用高频词性规则进行匹配,提取出候选短语;然后利用语法语义特征,用支持向量机算法来分类得到短语,作为候选索引词;计算候选索引词和对应图书的领域之间的相似度,作为术语度;计算信息量、词频、点互信息、百科关键值来得到索引度;计算标题偏移距离、候选索引词比例、兴趣度来得到上下文权值;最后结合术语度、索引度、上下文权值得到索引分数,通过有限制的排序来得到图书索引词。本发明专利技术能为没有书后索引词的图书添加索引,增加了图书的可阅读性与可搜索性。

Book content index automatic construction method based on book content

The invention discloses an automatic indexing method of books and books indexes based on book contents. Firstly, the analysis of the text digital books in the chapter as a unit, the text tagging POS array using Natural Language Processing tools to get high frequency reuse; part of speech rules matching to extract the candidate phrases; then the grammatical and semantic characteristics, using support vector machine algorithm to get the classification of phrases as candidate index words; similarity calculation the candidate and the corresponding index word book field, as the term degree; the amount of information, calculation of frequency, mutual information, the key point of values to get the index; calculation of Title offset distance, the candidate index proportion, degree of interest to get the right context value; finally, the term of the index, the weight and the context the index scores, through a sort of restrictions to get the book index word. The invention can add indexes to books without index words, thereby increasing the readability and the searching ability of books.

【技术实现步骤摘要】
一种基于图书内容的图书书后索引自动构建方法
本专利技术涉及利用计算机人工智能、数据挖掘等方法进行书后索引词的生成,尤其涉及一种基于图书内容的图书书后索引自动构建方法。
技术介绍
书后索引泛指书后附件。是以书中某些词语为线索,指出与这些词语的描述对象有关的内容位于本书的什么位置。一般宏篇巨著,特别是学术著作,内容博大精深,往往在正文后附有索引,供读者检索。书后索引在西方长期以来受到广泛的重视,西方读者习惯于使用书索引来检索自己所需的内容。有的国家对书后索引做出明确的规定,如果一部学术著作不附索引,就不允许出版。书后索引编制的好坏,通常作为评判图书质量的重要指标之一,书后索引也是国际学术著作通行的惯例,是图书结构规范化和标准化的要求,在学术著作、大型书稿中通常都要求在书后附有索引。由此可看出,西方出版机构比较重视书后索引,绝大多数的著作都附有书后索引,普及率很高,并且种类不一而全,质量较高。但在我国,现代编辑出版不重视书后索引,甚至常常将译书中已有的书后索引删节,这些看似节省效率的短视行为,产生原因是多方面的,但其中不可忽略的一个方面的原因在于对书后索引的信息检索功能认识不够。在当今的信息时代,由于受时间和信息量的限制,读者常常不可能把他要了解的书完全通读。书后索引除了可以帮助读者快速查找专有名词、提名,掌握该书专业名词分布的章节、页码外,同时也是解答学科术语、专有名词等问题的重要参考资料。书后索引的检索功能就是对文献深层开发,是实现信息增值的重要途径。书后索引将书中所论述各方面具有信息价值的内容作为一个单位;然后读者可以查找该内容线索的短语,再以该短语为线索,指出与该短语描述对象有关的信息及其所在位置。在阅读前,读者可以根据书后索引所提供的指示,自由选择书中自己所需信息。阅读后人们可借助书后索引的指引,重新回味曾一度阅读过的知识,或寻找某些信息在文中的特定位置,或重新定位文中读者所需的特定信息。
技术实现思路
本专利技术的目的是为克服现有技术的不足,提供一种基于图书章节文本内容的书后索引词的构建方法。本专利技术的目的是通过以下技术方案来实现的:一种基于图书内容的图书书后索引自动构建方法,包括以下步骤:1)选择一本书,将图书的正文作为待查找的字符串,去匹配从科学技术术语中得到的高频词性规则,所有匹配成功的子串就作为候选短语;2)对于每一个候选短语,计算其互信息、信息熵、候选短语间包含关系、标点位置、长度、词库状态、语法依赖关系、短语组合模式、语义相似度、短语内链、语法树连通分量数等特征值;3)采用支持向量机算法,根据候选短语的特征值来进行分类训练,得到短语分类模型及模型准确率;4)进行特征选择,再用选择后的特征来训练模型并进行短语分类,得到候选索引词列表;5)采用随机森林算法,根据候选索引词的表征向量以及由图书标题和图书中图分类名得到的专业领域表征向量,得到一个候选索引词的术语度;6)根据候选索引词的信息量、词频、点互信息和百科关键值来得到一个候选词的索引度;7)根据候选索引词的标题偏移距离、候选索引词比例和兴趣度来得到一个候选词的上下文权值;8)结合候选索引词的术语度、索引度以及上下文权值来计算一个候选索引词的索引分数;9)根据候选索引词的索引分数以及在书中的分布来进行排序,从而使得索引词分布更加均匀,实现索引词的生成。进一步地,所述的步骤1)具体为:对科学技术术语利用自然语言处理工具LTP-Cloud去切词并标注词性,切分后每一个字词记为W[i],对应的词性描述符为N[i],N就是该科学技术术语所对应的词性规则。通过对科学技术术语的词性规则进行统计,得到频率最高的10个词性规则,作为高频词性规则组。对图书正文利用自然语言处理工具LTP-Cloud去切词并标注词性,切分后每一个字词记为TextW[i],对应的词性描述符为TextN[i];TextN词性数组作为目标,用高频词性规则组里的词性规则作为模式,TextN中所有匹配成功的词性子串,其对应的字词子串作为候选短语。进一步地,所述的步骤2)中,对于每一个候选短语W,考虑以下特征:2.1)互信息MI(W)公式如下:一个候选短语W经过分词后,得到子字符串数组,数组长度为N。若N为1,则互信息值为1;若N大于1,则取其中一个切分点为基准,左侧组成左子字符串WL,右侧组成右子字符串WR,W为N-Gram。若W一共出现了j次,而N阶短语一共有k个,则上式的P(W)=j/k。同理可以求出P(WL)和P(WR)。若切分点有多个,则取MI(W)最大的值作为互信息值,并进行归一化。互信息值越高,表明WL和WR相关性越高,则WL和WR组成短语的可能性越大;反之,互信息值越低,WL和WR之间相关性越低,则WL和WR之间存在短语边界的可能性越大。2.2)左右信息熵左信息熵EL(W)公式如下:其中A是W的左相邻词语的集合,a是A中的一个词语。P(aW|W)是在候选短语W出现的条件下,aW短语出现的概率。该值越高,表示a与W之间接续关系越不确定,a不应该和W组成短语,W本身更具有独立性。右信息熵ER(W)公式如下:其中B是W的右相邻词语的集合,b是B中的一个词语。P(Wb|W)是在候选短语W出现的条件下,Wb短语出现的概率。该值越高,表示W与b之间接续关系越不确定,b不应该和W组成短语,W本身更具有独立性。2.3)内信息熵对当前候选短语W从分词点进行分割,得到左右两个子串WL和WR,其中WL是WR的左邻接词,WR是WL的右邻接词,WL+WR=W。依据2.2)的公式,计算WL的右信息熵E1和WR的左信息熵E2。E1、E2中的较小值作为内熵Ein(W)。如果当前候选短语W有多个切分左子串和右子串的方式,则取所有分词情况下计算得到的内熵最小值作为当前短语的内信息熵。候选短语W的内熵越高,表明W的左右子串越离散,组合成短语的可能性越小,越不可能成为短语。2.4)候选短语间包含关系在图书正文中,统计所有抽取的候选短语之间的包含关系。若候选短语W1是候选短语W2的子字符串,则W2包含W1。2.5)标点位置候选短语是否直接出现在标点符号之前或之后。2.6)语义相似度利用中文分词工具对候选短语进行分析,使用Word2Vec工具将短语中的左子串WL和右子串WR转换为向量,再计算向量之间的余弦距离,作为短语内部的相似度。如果有多个切分左子串和右子串的方式,则取所有分词情况下计算得到的相似度最大值作为语义相似度。2.7)长度候选短语的汉字字数。2.8)词库状态词库里的词条来自于百度百科收录的标题。相关特征如下:2.8.1)候选短语是否在词库中出现;2.8.2)该候选短语通过中文分词工具得到的字词,有几个在词库中出现过;2.8.3)在词库中,有多少个词包含当前的候选短语。2.9)短语内链候选短语在其百度百科的页面里,所包含的超链接的个数。2.10)语法树连通分量数图书内容文本中的一个句子经过自然语言工具LTP-Cloud处理后,得到一棵语法树。候选短语在语法树里都是由一个或多个字词节点组成的图。图的连通分量数即为该候选短语的语法树连通分量数。2.11)语法依赖关系在特征2.10)中得到了候选短语在语法树中对应的图,图中的一个点用来表达一个字词,图的一条边用来表达两个字词之间的依赖关系。如果图的连通分量数为本文档来自技高网
...
一种基于图书内容的图书书后索引自动构建方法

【技术保护点】
一种基于图书内容的图书书后索引自动构建方法,其特征在于,包括以下步骤:1)选择一本书,将图书的正文作为待查找的字符串,去匹配从科学技术术语中得到的高频词性规则,所有匹配成功的子串就作为候选短语;2)对于每一个候选短语,计算其互信息、信息熵、候选短语间包含关系、标点位置、长度、词库状态、语法依赖关系、短语组合模式、语义相似度、短语内链、语法树连通分量数等特征值;3)采用支持向量机算法,根据候选短语的特征值来进行分类训练,得到短语分类模型及模型准确率;4)进行特征选择,再用选择后的特征来训练模型并进行短语分类,得到候选索引词列表;5)采用随机森林算法,根据候选索引词的表征向量以及由图书标题和图书中图分类名得到的专业领域表征向量,得到一个候选索引词的术语度;6)根据候选索引词的信息量、词频、点互信息和百科关键值来得到一个候选词的索引度;7)根据候选索引词的标题偏移距离、候选索引词比例和兴趣度来得到一个候选词的上下文权值;8)结合候选索引词的术语度、索引度以及上下文权值来计算一个候选索引词的索引分数;9)根据候选索引词的索引分数以及在书中的分布来进行排序,从而使得索引词分布更加均匀,实现索引词的生成。...

【技术特征摘要】
1.一种基于图书内容的图书书后索引自动构建方法,其特征在于,包括以下步骤:1)选择一本书,将图书的正文作为待查找的字符串,去匹配从科学技术术语中得到的高频词性规则,所有匹配成功的子串就作为候选短语;2)对于每一个候选短语,计算其互信息、信息熵、候选短语间包含关系、标点位置、长度、词库状态、语法依赖关系、短语组合模式、语义相似度、短语内链、语法树连通分量数等特征值;3)采用支持向量机算法,根据候选短语的特征值来进行分类训练,得到短语分类模型及模型准确率;4)进行特征选择,再用选择后的特征来训练模型并进行短语分类,得到候选索引词列表;5)采用随机森林算法,根据候选索引词的表征向量以及由图书标题和图书中图分类名得到的专业领域表征向量,得到一个候选索引词的术语度;6)根据候选索引词的信息量、词频、点互信息和百科关键值来得到一个候选词的索引度;7)根据候选索引词的标题偏移距离、候选索引词比例和兴趣度来得到一个候选词的上下文权值;8)结合候选索引词的术语度、索引度以及上下文权值来计算一个候选索引词的索引分数;9)根据候选索引词的索引分数以及在书中的分布来进行排序,从而使得索引词分布更加均匀,实现索引词的生成。2.根据权利要求1所述的基于图书内容的图书书后索引自动构建方法,其特征在于,所述的步骤1)具体为:对科学技术术语利用自然语言处理工具LTP-Cloud去切词并标注词性,切分后每一个字词记为W[i],对应的词性描述符为N[i],N就是该科学技术术语所对应的词性规则。通过对科学技术术语的词性规则进行统计,得到频率最高的10个词性规则,作为高频词性规则组。对图书正文利用自然语言处理工具LTP-Cloud去切词并标注词性,切分后每一个字词记为TextW[i],对应的词性描述符为TextN[i];TextN词性数组作为目标,用高频词性规则组里的词性规则作为模式,TextN中所有匹配成功的词性子串,其对应的字词子串作为候选短语。3.根据权利要求1所述的基于图书内容的图书书后索引自动构建方法,其特征在于,所述的步骤2)中,对于每一个候选短语W,考虑以下特征:2.1)互信息MI(W)公式如下:一个候选短语W经过分词后,得到子字符串数组,数组长度为N。若N为1,则互信息值为1;若N大于1,则取其中一个切分点为基准,左侧组成左子字符串WL,右侧组成右子字符串WR,W为N-Gram。若W一共出现了j次,而N阶短语一共有k个,则上式的P(W)=j/k。同理可以求出P(WL)和P(WR)。若切分点有多个,则取MI(W)最大的值作为互信息值,并进行归一化。互信息值越高,表明WL和WR相关性越高,则WL和WR组成短语的可能性越大;反之,互信息值越低,WL和WR之间相关性越低,则WL和WR之间存在短语边界的可能性越大。2.2)左右信息熵左信息熵EL(W)公式如下:其中A是W的左相邻词语的集合,a是A中的一个词语。P(aW|W)是在候选短语W出现的条件下,aW短语出现的概率。该值越高,表示a与W之间接续关系越不确定,a不应该和W组成短语,W本身更具有独立性。右信息熵ER(W)公式如下:其中B是W的右相邻词语的集合,b是B中的一个词语。P(Wb|W)是在候选短语W出现的条件下,Wb短语出现的概率。该值越高,表示W与b之间接续关系越不确定,b不应该和W组成短语,W本身更具有独立性。2.3)内信息熵对当前候选短语W从分词点进行分割,得到左右两个子串WL和WR,其中WL是WR的左邻接词,WR是WL的右邻接词,WL+WR=W。依据2.2)的公式,计算WL的右信息熵E1和WR的左信息熵E2。E1、E2中的较小值作为内熵Ein(W)。如果当前候选短语W有多个切分左子串和右子串的方式,则取所有分词情况下计算得到的内熵最小值作为当前短语的内信息熵。候选短语W的内熵越高,表明W的左右子串越离散,组合成短语的可能性越小,越不可能成为短语。2.4)候选短语间包含关系在图书正文中,统计所有抽取的候选短语之间的包含关系。若候选短语W1是候选短语W2的子字符串,则W2包含W1。2.5)标点位置候选短语是否直接出现在标点符号之前或之后。2.6)语义相似度利用中文分词工具对候选短语进行分析,使用Word2Vec工具将短语中的左子串WL和右子串WR转换为向量,再计算向量之间的余弦距离,作为短语内部的相似度。如果有多个切分左子串和右子串的方式,则取所有分词情况下计算得到的相似度最大值作为语义相似度。2.7)长度候选短语的汉字字数。2.8)词库状态词库里的词条来自于百度百科收录的标题。相关特征如下:2.8.1)候选短语是否在词库中出现;2.8.2)该候选短语通过中文分词工具得到的字词,有几个在词库中出现过;2.8.3)在词库中,有多少个词包含当前的候选短语。2.9)短语内链候选短语在其百度百科的页面里,所包含的超链接的个数。2.10)语法树连通分量数图书内容文本中的一个句子经过自然语言工具LTP-Cloud处理后,得到一棵语法树。候选短语在语法树里都是由一个或多个字词节点组成的图。图的连通分量数即为该候选短语的语法树连通分量数。2.11)语法依赖关系在特征2.10)中得到了候选短语在语法树中对应的图,图中的一个点用来表达一个字词,图的一条边用来表达两个字词之间的依赖关系。如果图的连通分量数为1且根节点只有1个子节点,则选取根节点与子节点的依赖关系作为特征;如果图的连通分量数为1且根节点的子节点的个数大于1,则选取最后1个子节点的依赖关系作为特征;如果图的连通分量数为1且根节点没有子节点,则依赖关系为单一;如果图的连通分量数大于1,则依赖关系为其他。2.12)短语组合模式候选短语经过中分文词工具分词后,得到的词组长度为N,则该候选短语为N-Gram。在特征2.10)中得到了候选短语的在语法树中对应的图,对于图中的字词节点,用英文大写字母按照文本顺序进行标记。N=2时的短语组合模式用集合{A,B}来表达;N=3时的短语组合模式用集合{A,B,C}来表达,依次类推。相邻的字母,左边字母是右边字母的父节点。不相邻的字母没有依赖关系。4.根据权利要求1所述的基于图书内容的图书书后索引自动构建方法,其特征在于,所述的步骤3)具体为:用步骤2)中得到的候选短语的特征值来表达该候选短语,并将一部分数据进行人工标注,标注这些候选短语为短语类和非短语类,再取一部分标注数据作为训练集,剩下的标注数据作为测试集。用支持向量机训练算法将人工标注的训练集进行训练得到一个模型,使其成为非概率二元线性分类模型,并用测试集来进行验证。将测试集里的短语的特征作为支持向量机训练的模型的输入,将模型输出的分类结果和测试集里人工标注的结果进行对比,如果标注相同则为正确,标注不同则为错误,统计正确标注所占的比例得到该模型的准确率。5.根据权利要求1所述的基于图书内容的图书书后索引自动构建方法,其特征在于,所述的步骤4)中,特征选择采用序列后向选择算法,步骤2)得到的所有特征组成特征全集O。具体步骤如下:(4.1)计算每个候选短语在特征集合O里的所有特征值,并用这些特征值作为输入,进行模型训练,得到模型准确率A,将A作为模型基准。(4.2)特征集合O的集合大小记为n。从特征集合O中去掉一个特征xi得到子集Oi,i∈[1,n],共得到n个子集。(4.3)进行n次训练。得到每个子集Oi对应的模型准确率Ai。(4.4)从A1到An中找出最大值Am,m∈[1,n...

【专利技术属性】
技术研发人员:鲁伟明杨德志庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1