【技术实现步骤摘要】
本专利技术的各实施方式涉及文档管理,更具体地,涉及基于文档的多个历史版本生 成文档结构的方法和装置。
技术介绍
长文档通常具有复杂的文档结构,用户可以借助于文档结构来快速地在文档中找 到期望查阅的内容。尤其是诸如法律、技术标准、合同等的文档可能会包括数十个章节、数 百个条款,如果用户仅关心文档中的某一章节的某个条款,在没有文档结构的辅助的情况 下,用户需要浏览数百甚至上千的页面并找到期望的内容,工作量可想而知。 现有的文档编辑工具已经提供了设置文档结构的功能,用户可以使用这些文档编 辑工具在编辑文档期间为文档中的不同部分设置相应的文档结构,例如,可以针对文档的 标题设置"标题"层级的文档结构,针对文档中的第一章设置"章节"层级的文档结构,等等。 也就是说,用户可以在文档中设置不同层级的标题,并且在每个章节中还可以进一步设置 其他层级。然而,由于很多法律、技术标准等文档是在多年以前颁布的,目前可能仅仅存在 印刷的纸质版本而并不存在电子版,或者即使存在电子版,该电子版可能也仅仅是纯文本 的格式而其中并不包括文档结构信息。 还应当理解,对于长度较短的文档, ...
【技术保护点】
一种用于生成文档结构的方法,包括:针对文档的多个历史版本中的至少一对历史版本中的第一版本和第二版本,对准所述第一版本和所述第二版本中的各个部分;基于所述第一版本和所述第二版本中的所对准的各个部分之间的编辑距离,将所述第一版本和所述第二版本划分为多个块;针对所述多个块中的块,基于所述块的文本特征来评估所述块在所述文档结构中的层级;以及根据评估结果,基于所述块的位置生成所述文档结构。
【技术特征摘要】
【专利技术属性】
技术研发人员:郭志立,郭宏蕾,钱伟红,包胜华,D·帕塞托,苏中,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。