当前位置: 首页 > 专利查询>浙江大学专利>正文

基于非监督学习的图书概念前后序关系抽取方法技术

技术编号:21089798 阅读:49 留言:0更新日期:2019-05-11 10:02
本发明专利技术公开了一种基于非监督学习的图书概念前后序关系抽取方法:以同领域的海量图书和百度百科网页为语料,构建概念前后序关系分类模型和概念前后序关系发现模型,并进行迭代抽取;在概念前后序关系分类模型中,利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,训练分类模型;在概念前后序关系发现模型中,利用概念前后序的性质,基于非自反性约束、位置前后约束、内容相关约束等约束,来发现概念之间的前后序关系;最后迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止;本发明专利技术可以自动从图书中抽取概念的前后序关系,在知识推荐、学习路径规划等方面均有重要应用。

【技术实现步骤摘要】
基于非监督学习的图书概念前后序关系抽取方法
本专利技术涉及概念前后序关系抽取方法,尤其涉及一种基于非监督学习的图书概念前后序关系的抽取方法。
技术介绍
图书作为重要的信息来源,具有很大潜在价值,从中可以挖掘很多有意义的信息,如问题的答案、实体、事件、概念的定义、概念的上下位关系、概念的前后序关系等;通过对此类信息的挖掘,可以更好的理解图书的内容,并且可以把图书中有价值的信息迁移到运用于其他领域;概念前后序关系是指概念之间的依存关系,即理解一个概念需要提前理解其依赖的概念;如在微积分领域,学习概念“柯西中值定理”必须要先掌握概念“导数”,否则便无法理解;概念前后序关系正是概念之间的相互依赖,通过挖掘概念前后序关系,可以构建一个完整的知识网络,对于学习路线规划,课程推荐具均可应用,在教育领域有着丰富的前景;目前的主要解决方案有四种,相对距离方法(refd),概念图学习方法(CGL),基于前后章节关联的恢复方法(CPR-Recover),基于特征提取的分类方法(MOOC);相对距离方法,全称为referencedistance,简称refd;利用前后序概念之间相互提及对方的不一致性来判断概念前后序关系;Refd虽然为非监督方法,不需要预标注数据,但阈值的选择需要决策,不同阈值效果差别很大;而且作为判别方法,判别方式过于单一,容易引入噪音;概念图学习方法,全称conceptgraphlearning,简称CGL;将一个领域的所有概念前后序关系构建成一个关系网络,通过一个关系矩阵求解;CGL在全局基础上对概念前后序关系进行学习,取得了不错的效果,但是需要大量标注,而且矩阵学习的过程有些粗糙,很多特征没有被挖掘;基于特征的分类器算法可针对多种结构化文本,例如MOOC;该算法充分利用概念前后序关系的特点,针对结构化文本提出多条具有价值的特征,然后使用训练数据训练随机森林分类模型,最后输出分类器预测的概念前后序分类结果。
技术实现思路
本专利技术解决了目前概念前后序关系判别的标注数据不足的问题,在不需要进行任何先验标注的情况下,取得了不错的结果,提出了一种基于迭代的非监督图书概念前后序关系抽取方法。本专利技术解决其技术问题采用的技术方案如下:一种基于非监督学习的图书概念前后序关系抽取方法,包括以下步骤:1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,建立如下目标函数:其中,A是概念前后序关系矩阵,ξ是章节前后关联约束的松弛项,λ1和λ2均表示系数,N表示概念的总数量,F表示概念前后序关系分类模型的输出,W(i,j)是概念i和概念j的相似度距离,根据词向量的cosine距离排序获得,||A(i,:)-A(j,:)||2表示概念i和概念j在全局前后序关系的差异;将概念前后序关系分类模型的输出F作为输入,结合约束条件对目标函数进行凸优化运算,训练得到概念前后序关系发现模型,对模型的输出矩阵A的元素进行排序,从而得到概念前后序关系的标记,并作为概念前后序关系分类模型的输入;4)迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止。进一步地,所述步骤1)中,预处理数据具体步骤为:1.1)图书OCR识别将指定领域的图书的pdf进行OCR处理,获取结构化的xml文件;通过解析xml文件可以精准获取每一章的标题、子章节的标题内容以及每一个子章节的文本内容;1.2)百度百科网页获取借助百度百科,可以获取概念之间更多的特征,为后续的判断提供有利的依据;百科的摘要、内容、内链均可以为前后序关系判断提供依据;根据指定领域内的概念词表,利用爬虫爬取对应概念的百度百科,存入爬取后的原始html文件;然后,将内容、摘要、内链进行单独解析,存放在mongodb中,并利用Lucene建立索引文件,作为额外知识库进行补充;1.3)词向量训练以百度百科作为训练词向量的语料,利用Word2Vec工具来训练词向量,得到概念对应的词向量。进一步地,所述步骤2)中,所述概念在百科中的分布规律包括:a.百科摘要特征摘要信息可以协助判断两个概念之间是否具有前后序关系;在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在b的摘要定义中,可能会提及a;基于此观察,百科摘要特征定义如下:其中Abst(b)表示概念b对应的百科词条的摘要;containsa表示摘要内容提及概念a,即概念a出现在摘要内容中;AbstContain(a,b)表示概念a和b基于百科摘要的特征值;b.百科内容特征在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在概念b对应的百科词条的内容中会多次提及概念a;若没有关系,则彼此内容之间会互不提及;基于此观察,百科内容特征定义如下:ContContain(a,b)=f(a,Cont(b))其中Cont(b)表示概念b对应百科词条的内容,f(x,y)表示概念x在内容y出现的频次;ContContain(a,b)表示概念a和概念b基于百科内容特征的特征值;c.百科链接Refd特征Refd全称referencedistance,是衡量概念前后序关系的重要特征之一;在概念对(a,b)中,如果概念a和概念b具有前后序关系,则它们各自对应的上下文提及对方的频次是不一样的;后序概念b的上下文中反复提及概念a;前序概念a的上下文中,却相对少的提及概念b;Refd即是利用这种非对称性特性而提取的特征;基于此观察,百科链接Refd特征定义如下:Lrd(a,b)=Link(b,a)-Link(a,b)其中,L(a)表示概念a对应百科词条的内链词条的集合;r(b,L)表示词条L的内链中是否包含概念b,包含则记为1,否则记为0;|L(a)|表示概念a对应百科词条的内链总数;Link(a,b)表示在概念a的对应词条的内链中指向概念b的概率;Lrd(a,b)表示概念a和概念b基于百科链接Refd特征的特征值;所述概念在图书中的分布规律包括:A.图书一级章节refd特征在概念对(a,b)中,如果概念a和概念b具有前后序关系,则在图书一级章节中,概念a的上下文提及概念b的概率和概念b的上下文提及概念a的概率是不同的;基于此观察,图书一级章节refd特征定义如下:Crd1(a,b)=Crw1(b,a)-Crw1(a,b)其中,D表示全体语料,B表示语料中的任意一本图书,C1表示图书中的任意一节一级章节;r(a,C1)表示一级章节C1是否提及概念a,若提及则记为1,否则记为0;Crw1(a,b)表示概念a在一级章节的上下文中,提及概念b的概率;Crd1(a,b)表示概念a和概念b基于图书一级章节refd特征的特征值;B.图书二级章节refd特征在概念对(a,b)中,同图书一级章节refd特征定义,图书二级章节的redf特定定义如下:C本文档来自技高网
...

【技术保护点】
1.一种基于非监督学习的图书概念前后序关系抽取方法,其特征在于,包括以下步骤:1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,建立如下目标函数:

【技术特征摘要】
1.一种基于非监督学习的图书概念前后序关系抽取方法,其特征在于,包括以下步骤:1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,建立如下目标函数:其中,A是概念前后序关系矩阵,ξ是章节前后关联约束的松弛项,λ1和λ2均表示系数,N表示概念的总数量,F表示概念前后序关系分类模型的输出,W(i,j)是概念i和概念j的相似度距离,根据词向量的cosine距离排序获得,||A(i,:)-A(j,:)||2表示概念i和概念j在全局前后序关系的差异;将概念前后序关系分类模型的输出F作为输入,结合约束条件对目标函数进行凸优化运算,训练得到概念前后序关系发现模型,对模型的输出矩阵A的元素进行排序,从而得到概念前后序关系的标记,并作为概念前后序关系分类模型的输入;4)迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止。2.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤1)中,预处理数据具体步骤为:1.1)图书OCR识别将指定领域的图书的pdf进行OCR处理,获取结构化的xml文件;通过解析xml文件可以精准获取每一章的标题、子章节的标题内容以及每一个子章节的文本内容;1.2)百度百科网页获取根据指定领域内的概念词表,利用爬虫爬取对应概念的百度百科,存入爬取后的原始html文件;然后,将内容、摘要、内链进行单独解析,存放在mongodb中,并利用Lucene建立索引文件,作为额外知识库进行补充;1.3)词向量训练以百度百科作为训练词向量的语料,利用Word2Vec工具来训练词向量,得到概念对应的词向量。3.根据权利要求1所述的基于非监督学习的图书概念前后序关系抽取方法,其特征在于,所述步骤2)中,所述概念在百科中的分布规律包括:a.百科摘要特征,其定义如下:其中Abst(b)表示概念b对应的百科词条的摘要;containsa表示摘要内容提及概念a,即概念a出现在摘要内容中;AbstContain(a,b)表示概念a和b基于百科摘要的特征值;b.百科内容特征,其定义如下:ContContain(a,b)=f(a,Cont(b))其中Cont(b)表示概念b对应百科词条的内容,f(x,y)表示概念x在内容y出现的频次;ContContain(a,b)表示概念a和概念b基于百科内容特征的特征值;c.百科链接Refd特征,其定义如下:Lrd(a,b)=Link(b,a)-Link(a,b)其中,L(a)表示概念a对应百科词条的内链词条的集合;r(b,L)表示词条L的内链中是否包含概念b,包含则记为1,否则记为0;|L(a)|表示概念a对应百科词条的内链总数;Link(a,b)表示在概念a的对应词条的内链中指向概念b的概率;Lrd(a,b)表示概念a和概念b基于百科链接Refd特征的特征值;所述概念在图书中的分布规律包括:A.图书一级章节refd特征,其定义如下:Crd1(a,b)=Crw1(b,a)-Crw1(a,b)其中,D表示全体语料,B表示语料中的任意一本图书,C1表示图书中的任意一节一级章节;r(a,C1)表示一级章节C1是否提及概念a,若提及则记为1,否则记为0;Crw1(a,b)表示概念a在一级章节的上下文中,提及概念b的概率;Crd1(a,b)表示概念a和概念b基于图书一级章节refd特征的特征值;B.图书二级章节refd特征,其定义如下:Crd2(a,b)=Crw2(b,a)-Crw2(a,b)其中,D表示全体语料,B表示语料中的任意一本图书,C2表示图书中的任意一节二级章节;r(a,C2)表示二级章节C2是否提及概念a,若提及则记为1,否则记为0;Crw2(a,b)表示概念a在二级章节的上下文中,提及概念b的概率;Crd2(a,b)表示概念a和概念b基于图书二级章节refd特征的特征值;C.图书复杂度特征,其定义如下:Cld(a,b)=avc(a)*ast(a)-avc(b)*ast(b)其...

【专利技术属性】
技术研发人员:鲁伟明周洋帆吴飞庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1