【技术实现步骤摘要】
基于指数概率模型的文档结构学习与生成方法及装置
本专利技术涉及自动学习
,特别涉及一种基于指数概率模型的文档结构学习与生成方法及装置。
技术介绍
不同场景、不同领域对文档结构有不同的要求,如何通过目标场景直接得到特定领域的文档结构是本领域亟待解决的问题,相关技术中,没有一种高效的通过语料库自动学习特定领域文档结构的方法。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于指数概率模型的文档结构学习与生成方法,该方法将文档结构看作本体中话题的次序结构,使用场景描述中的话题顺序来捕获文章的局部连贯信息,提供一个自动学习文档结构的方法,可以高效的根据语料库自动学习特定领域文档结构。本专利技术的另一个目的在于提出一种基于指数概率模型的文档结构学习与生成装置。为达到上述目的,本专利技术一方面实施例提出了一种基于指数概率模型的文档结构学习与生成方法,包括:获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相 ...
【技术保护点】
1.一种基于指数概率模型的文档结构学习与生成方法,其特征在于,包括以下步骤:/n获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;/n构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;/n通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。/n
【技术特征摘要】
1.一种基于指数概率模型的文档结构学习与生成方法,其特征在于,包括以下步骤:
获取带有标注语料的数据库,对所述数据库进行分析,得到与结构相关的特征信息和与节点及其取值相关的特征信息;
构建文档结构的指数概率概率模型,通过所述与结构相关的特征信息和与节点及其取值相关的特征信息对所述文档结构的指数概率概率模型进行训练;
通过训练后的文档结构的指数概率概率模型对目标场景进行处理,得到所述目标场景对应的文档结构。
2.根据权利要求1所述的方法,其特征在于,所述带有标注语料的数据库为由多个话题的序列组成。
3.根据权利要求1所述的方法,其特征在于,所述与结构相关的特征信息包括:
F1:
F2:
F3:
其中,x为当前话题,y为当前话题类型,ti为序列中第i个话题,u,v,w为话题类型,ti.type为第i个话题的话题类型,特征F1用于捕获当前话题和前一个话题的相关信息,特征F2用于捕获当前话题和前两个话题之间的相关信息,特征F3用于描述当前话题与之前的出现过的话题类型之间的关系。
4.根据权利要求3所述的方法,其特征在于,所述与节点及其取值相关的特征信息包括:
F4:
F5:
F6:
F7:
其中,特征F4用于描述话题本身的重要程度,特征F5用于描述话题本身类型的重要程度,特征F6用于描述话题所包含的属性和关系的类型,特征F7用于描述话题所包含的属性和关系的取值。
5.根据权利要求1所述的方法,其特征在于,所述文档结构的指数概率概率模型为:
其中,f(xi,yi)为特征信息,λ为从语料库学习的参数。
6.一...
【专利技术属性】
技术研发人员:龚隽鹏,吕锐,曹娟,宋卿,
申请(专利权)人:中国传媒大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。