基于文本语义的篇章结构分析方法技术

技术编号：16175664 阅读：39 留言：0更新日期：2017-09-09 02:53

本发明专利技术公开了一种基于文本语义的篇章结构分析方法，其步骤如下：步骤1，数据获取；步骤2，正文抽取；步骤3，标题识别和抽取；步骤4，层级结构构建。本发明专利技术可以解决纯文本的文档结构信息还原，为文本挖掘任务铺垫基础等技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于文本语义的篇章结构分析方法
本专利技术涉及一种文档语义信息分析方法。
技术介绍
文本结构是一种天然的文档语义信息，可以辅助阅读者理解文档的层次。文档写作者通常使用视觉手段和语义手段相结合的方法来设计文档结构。视觉信息如字体样式、页面布局等，语义信息包括使用多级标题、区分标题和正文、段落顺序安排等。文本挖掘(TextMining)技术是指使用计算机程序自动处理文本内容，对有价值的文本信息进行挖掘和抽取。文本挖掘是一个综合计算机技术，涉及语言学模型、自然语言处理技术、机器学习算法等。从文档内容的语义角色来说，文档篇章结构一般包括：文档标题、章节标题、章节子标题、正文段落。获取文档的结构信息，对于很多文本信息的挖掘任务十分有帮助，比如在丰富的结构信息基础上进行细粒度的信息抽取、文档检索等。互联网上存在大量的文档数据，而绝大部分文档是非结构化或半结构化的文档格式(此处的非结构化和半结构化，是指机器可读但不易处理的文档格式，如PDF；详见W3C语义数据评级)。以PDF为例的信息抽取，一般先通过开源工具将PDF转化为TXT文本，再进行具体的文本挖掘任务，以减小任务复杂度。然而这个过程会严重丢失掉很多原文的视觉信息，而使文本结构的还原很困难。
技术实现思路
本专利技术的目的是提供一种基于文本语义的篇章结构分析方法，以解决纯文本的文档结构信息还原，为文本挖掘任务铺垫基础等技术问题。为了实现上述专利技术目的，本专利技术所采用的分析方法步骤如下：步骤1，数据获取；101纯文本数据，使用开源工具将待处理文档转为机器可读的TXT格式，获取机器不可读格式的纯文本TXT数据；步骤2，...
基于文本语义的篇章结构分析方法

【技术保护点】
基于文本语义的篇章结构分析方法，其步骤如下：步骤1，数据获取；101纯文本数据，使用开源工具将待处理文档转为机器可读的TXT格式，获取机器不可读格式的纯文本TXT数据；步骤2，正文抽取；102噪声内容过滤，过滤对结构抽取任务而言的噪音内容，包括：空行、页眉页脚、表格内容；103目录和正文分割，对于有目录的文本，进行目录和正文的分割；目录部分识别出来后将其所有行以及之前行的内容剔除，仅保留其后的正文内容；104正文内容分行，切分正文内容为行列表，为之后每一行内容的判断做准备；步骤3，标题识别和抽取，105初始化根节点，初始化文档结构树的根节点，作为结构树的顶层节点。一个结构节点代表文章的一个章节结构，包括章节标题内容、章节标题层级、章节父节点、内容段落列表；根节点的标题内容设置为文章标题，标题层级设置为最高级，父节点设置为空，内容段落列表暂设为空；同时设置当前节点为根节点；106遍历每一行，顺序处理正文中的每一行，进入107步骤判断逻辑；每一次遍历时，记录一个当前行的指针，进入107处理模块；107识别是否为标题，使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题；如果识别某...

【技术特征摘要】
1.基于文本语义的篇章结构分析方法，其步骤如下：步骤1，数据获取；101纯文本数据，使用开源工具将待处理文档转为机器可读的TXT格式，获取机器不可读格式的纯文本TXT数据；步骤2，正文抽取；102噪声内容过滤，过滤对结构抽取任务而言的噪音内容，包括：空行、页眉页脚、表格内容；103目录和正文分割，对于有目录的文本，进行目录和正文的分割；目录部分识别出来后将其所有行以及之前行的内容剔除，仅保留其后的正文内容；104正文内容分行，切分正文内容为行列表，为之后每一行内容的判断做准备；步骤3，标题识别和抽取，105初始化根节点，初始化文档结构树的根节点，作为结构树的顶层节点。一个结构节点代表文章的一个章节结构，包括章节标题内容、章节标题层级、章节父节点、内容段落列表；根节点的标题内容设置为文章标题，标题层级设置为最高级，父节点设置为空，内容段落列表暂设为空；同时设置当前节点为根节点；106遍历每一行，顺序处理正文中的每一行，进入107步骤判断逻辑；每一次遍历时，记录一个当前行的指针，进入107处理模块；107识别是否为标题，使用基于规则知识特征的多分类器的标题识别器识别某一行是否为标题；如果识别某一行为标题时，转入109处理模块；反之进入110处理模块；108标题层级分类，使用标题层级分类器判别一个标题是第几层级的标题；根据经验语义知识，设定不同种类标题的层级关系：判断结束后，更新当前节点的标题层级信息；109初始化一个新节点，如果107处理模块返回为真时，进入当前处理模块；初始化一个节点，...

【专利技术属性】
技术研发人员：张梦迪，郑锦光，段清华，吴珂皓，鲍捷，马新磊，
申请(专利权)人：北京文因互联科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人