【技术实现步骤摘要】
一种从文章标题层次结构提取过程体系的方法和装置
本专利技术涉及人工智能
,尤其涉及一种从文章标题层次结构提取过程体系的方法和装置。
技术介绍
机器智能的基础是计算机的认知体系,其包括两大类:一类是静态的概念体系,例如:依据属性特征的分类体系、依据物理连接的结构体系、以及依据逻辑关系的关系体系;另一类是动态的事件(过程)体系。在一个特定的时空发生的过程就是事件。因此,对过程体系的识别、提取是计算机获取机器智能不可或缺的一步,是计算机能够对历史事件做出判断、对未来事件做出预测的基础,也是当今对机器智能研究的一个重要方向。识别文章标题的布局和层次是业内成熟技术,因为人们常用的文本软件(比如:word、PDF、HTML等)都自带格式信息,人们往往还用标题编号、字体渲染、段落缩进和对仗等来突出标题和段落的层次。故此,计算机可以获得丰富的信息识别出文章标题的层次。识别出文章标题的层次,并将其转换为容易计算和统计的编码后,就可以确定每一个标题的语义,从而完成一篇文章中过程体系的识别。但本专利技术申请人发现现有技术至少存在如下技术问题:现有的一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性。
技术实现思路
本专利技术实施例提供了一种从文章标题层次结构提取过程体系的方法和装置,解决了现有技术中一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性的技术问题,达到了对大量的文 ...
【技术保护点】
1.一种从文章标题层次结构提取过程体系的方法,其特征在于,所述方法包括:/n获得第一文章的第一文章格式信息;/n根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;/n根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;/n根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;/n获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;/n根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;/n获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;/n根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。/n
【技术特征摘要】
1.一种从文章标题层次结构提取过程体系的方法,其特征在于,所述方法包括:
获得第一文章的第一文章格式信息;
根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;
根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;
根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;
获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;
根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;
获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;
根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。
2.如权利要求1所述的方法,其特征在于,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。
3.如权利要求1所述的方法,其特征在于,所述根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:
获得所述第一级别标题的第一关键词;
判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;
当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。
4.如权利要求1所述的方法,其特征在于,所述根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:
根据所述第一级别标题对应的所述第一段落获得第一时间量;
根据所述第二级别标题对应的所述第二段落获得第二时间量;
根据所述第一时间量与所述第一级别标题获得第一二元组;
根据所述第二时间量与所述第二级别标题获得第二二元组;
根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;
根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。
5.如权利要求1...
【专利技术属性】
技术研发人员:宋永生,王楠,
申请(专利权)人:江苏联著实业股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。