一种从文章标题层次结构提取过程体系的方法和装置制造方法及图纸

技术编号:25836573 阅读:62 留言:0更新日期:2020-10-02 14:17
本发明专利技术提供了一种从文章标题层次结构提取过程体系的方法和装置,涉及人工智能技术领域,通过识别第一文章的第一文章格式信息获得第一级别标题以及第一段落;对第一级别标题进行过程识别,确定第一级别标题为第一过程的部分;获得第一级别标题的上层标题的第一过程名称与第一级别标题所在的下层标题,并获得在下层标题中描述第一过程的第二级别标题以及第二段落;根据时间识别第一段落与第二段落,获得第一级别标题与第二级别标题在第一过程中的第一步骤序列;获得多篇第二文章的第一过程中的第二步骤序列;根据第一过程名称集合第一步骤序列与第二步骤序列获得第一过程体系与第一过程体系的步骤序列,实现过程体系的完整性和一致性的技术效果。

【技术实现步骤摘要】
一种从文章标题层次结构提取过程体系的方法和装置
本专利技术涉及人工智能
,尤其涉及一种从文章标题层次结构提取过程体系的方法和装置。
技术介绍
机器智能的基础是计算机的认知体系,其包括两大类:一类是静态的概念体系,例如:依据属性特征的分类体系、依据物理连接的结构体系、以及依据逻辑关系的关系体系;另一类是动态的事件(过程)体系。在一个特定的时空发生的过程就是事件。因此,对过程体系的识别、提取是计算机获取机器智能不可或缺的一步,是计算机能够对历史事件做出判断、对未来事件做出预测的基础,也是当今对机器智能研究的一个重要方向。识别文章标题的布局和层次是业内成熟技术,因为人们常用的文本软件(比如:word、PDF、HTML等)都自带格式信息,人们往往还用标题编号、字体渲染、段落缩进和对仗等来突出标题和段落的层次。故此,计算机可以获得丰富的信息识别出文章标题的层次。识别出文章标题的层次,并将其转换为容易计算和统计的编码后,就可以确定每一个标题的语义,从而完成一篇文章中过程体系的识别。但本专利技术申请人发现现有技术至少存在如下技术问题:现有的一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性。
技术实现思路
本专利技术实施例提供了一种从文章标题层次结构提取过程体系的方法和装置,解决了现有技术中一篇文章中不是所有的被识别出的标题下的段落中都具有时间量,且一篇文章对于一个过程体系的描述存在缺失,不完整性的技术问题,达到了对大量的文章按过程名称同义和过程步骤序列相似性聚类、补缺,保证一个过程体系的完整性和一致性的技术效果。鉴于上述问题,提出了本申请实施例以便提供一种从文章标题层次结构提取过程体系的方法和装置。第一方面,本专利技术提供了一种从文章标题层次结构提取过程体系的方法,所述方法包括:获得第一文章的第一文章格式信息;根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。优选地,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。优选地,所述根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:获得所述第一级别标题的第一关键词;判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。优选地,所述根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:根据所述第一级别标题对应的所述第一段落获得第一时间量;根据所述第二级别标题对应的所述第二段落获得第二时间量;根据所述第一时间量与所述第一级别标题获得第一二元组;根据所述第二时间量与所述第二级别标题获得第二二元组;根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。优选地,所述根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列,包括:根据所述第一过程名称获得所述第二步骤序列与所述第一步骤序列中具有第一相似度的第一序列数据;根据所述第一序列数据与所述第二步骤序列获得第二序列数据,其中,所述第二序列数据与所述第一序列数据的交集数据为零;根据所述第二序列数据、所述第一序列数据与所述第一步骤序列获得初步过程体系与初步过程体系的步骤序列;对所述初步过程体系与初步过程体系的步骤序列进行校验,获得所述第一过程体系与所述第一过程体系的步骤序列。第二方面,本专利技术提供了一种从文章标题层次结构提取过程体系的装置,所述装置包括:第一获得单元,所述第一获得单元用于获得第一文章的第一文章格式信息;第二获得单元,所述第二获得单元用于根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;第一确定单元,所述第一确定单元用于根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;第三获得单元,所述第三获得单元用于根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;第四获得单元,所述第四获得单元用于获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;第五获得单元,所述第五获得单元用于根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;第六获得单元,所述第六获得单元用于获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;第七获得单元,所述第七获得单元用于根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。优选地,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。优选地,所述第一确定单元中根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:第八获得单元,所述第八获得单元用于获得所述第一级别标题的第一关键词;第一判断单元,所述第一判断单元用于判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;第二确定单元,所述第二确定单元用于当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。优选地,所述第五获得单元中根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:第九获得单元,所述第九获得单元用于根据所述第一级别标题对应的所述第一段落获得第一时间量;第十获得单元,所述第十获得单本文档来自技高网...

【技术保护点】
1.一种从文章标题层次结构提取过程体系的方法,其特征在于,所述方法包括:/n获得第一文章的第一文章格式信息;/n根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;/n根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;/n根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;/n获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;/n根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;/n获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;/n根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。/n

【技术特征摘要】
1.一种从文章标题层次结构提取过程体系的方法,其特征在于,所述方法包括:
获得第一文章的第一文章格式信息;
根据所述第一文章格式信息识别所述第一文章的标题层次获得第一级别标题,其中,所述第一级别标题包含所述第一级别标题对应的第一段落;
根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分;
根据所述第一级别标题获得所述第一级别标题的上层标题的第一过程名称与所述第一级别标题所在的下层标题;
获得在所述下层标题中描述所述第一过程的第二级别标题,其中,所述第二级别标题包含所述第二级别标题对应的第二段落;
根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列;
获得多篇第二文章的所述第一过程中的第二步骤序列,其中,所述第二文章与所述第一文章的文章名称属于同义词;
根据所述第一过程名称集合所述第一步骤序列与所述第二步骤序列,获得第一过程体系与第一过程体系的步骤序列。


2.如权利要求1所述的方法,其特征在于,所述第一文章格式信息包含第一文章文本格式、第一文章字体格式、第一文章段落格式。


3.如权利要求1所述的方法,其特征在于,所述根据语义工程辞典对所述第一级别标题进行过程识别,确定所述第一级别标题为第一过程的部分,包括:
获得所述第一级别标题的第一关键词;
判断所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度是否满足第一预设阈值;
当所述第一关键词与所述语义工程辞典中标注的描述所述第一过程的行为词的匹配度满足第一预设阈值时,确定所述第一级别标题为第一过程的部分。


4.如权利要求1所述的方法,其特征在于,所述根据时间识别所述第一段落与所述第二段落获得所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列,包括:
根据所述第一级别标题对应的所述第一段落获得第一时间量;
根据所述第二级别标题对应的所述第二段落获得第二时间量;
根据所述第一时间量与所述第一级别标题获得第一二元组;
根据所述第二时间量与所述第二级别标题获得第二二元组;
根据所述第一二元组与所述第二二元组进行排序获得第一时间序列;
根据所述第一时间序列确定所述第一级别标题与所述第二级别标题在所述第一过程中的第一步骤序列。


5.如权利要求1...

【专利技术属性】
技术研发人员:宋永生王楠
申请(专利权)人:江苏联著实业股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1