【技术实现步骤摘要】
一种文本段落的抽取方法及装置
本申请涉及文本信息抽取
,尤其涉及一种文本段落的抽取方法及装置。
技术介绍
文本是书面语言的表现形式,从文学的角度,文本通常是具有完整、系统含义的一个或多个句子的组合。文本结构是一种天然的文本语义信息,可以辅助阅读者理解文本的层次。文本写作者通常使用视觉手段和语义手段相结合的方法来设计文本结构。视觉手段如字体样式、页面布局等,语义手段包括使用多级标题、区分标题和正文、段落顺序安排等。从文本内容的语义手段来说,文本结构一般包括:文本标题、段落标题、段落子标题和正文段落。获取文本结构,对于很多文本信息的挖掘任务十分有帮助。然而,现实生活中存在的大量文本,由于写作者的撰写习惯或者版式要求的不同,通常没有清晰准确的文本结构;如人民法院下发的法律裁判文书,此类文书类型丰富,包含的信息量较大,如原告信息、被告信息和裁判结果等。因此,准确将不具有清晰文本结构的文本进行段落划分并得到每个段落的标题尤为重要。目前,划分不具有清晰文本结构的文本中的段落仍然采用人工的方式来实现,但是,依靠人工阅读文本,根据文本的具体内容重新区分文本的各个段落,再总结 ...
【技术保护点】
一种文本段落的抽取方法,其特征在于,所述方法包括:获取文本;创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置 ...
【技术特征摘要】
1.一种文本段落的抽取方法,其特征在于,所述方法包括:获取文本;创建与所述文本对应的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;将所述模型树的各个节点中满足预设筛选规则的节点进行提取,生成定位节点集,其中,所述定位节点集包括至少一个前置定位节点和至少一个后置定位节点,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则;将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息,其中,所述匹配规则包括前置匹配规则和后置匹配规则,所述前置匹配规则为前置最远匹配规则或前置最近匹配规则,所述后置匹配规则为后置最远匹配规则或后置最近匹配规则;根据所述起始信息和结束信息,确定所述文本的段落;抽取所述段落的文本信息。2.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最远匹配规则,每个所述后置定位节点按照后置最远匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的前置匹配信息确定为起始信息;将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最远的后置匹配信息确定为结束信息。3.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最近匹配规则,每个所述后置定位节点按照后置最远匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最远的前置匹配信息确定为起始信息;将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最远的后置匹配信息确定为结束信息。4.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最远匹配规则,每个所述后置定位节点按照后置最近匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息;根据每个所述前置匹配信息在所述文本中的位置,将距离所述文本第一个字符最近的前置匹配信息确定为起始信息;将每个所述后置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个后置匹配信息;根据每个所述后置匹配信息在所述文本中的位置,将位于所述起始信息之后且距离所述起始信息最近的后置匹配信息确定为结束信息。5.如权利要求1所述的方法,其特征在于,当每个所述前置定位节点按照前置最近匹配规则,每个所述后置定位节点按照后置最近匹配规则时,所述将每个所述前置定位节点对应的抽取表达式集和每个所述后置定位节点对应的抽取表达式集,按照预设匹配规则,与所述文本进行匹配,得到起始信息和结束信息包括:将每个所述前置定位节点对应的抽取表达式集与所述文本进行匹配,得到至少一个前置匹配信息...
【专利技术属性】
技术研发人员:李德彦,晋耀红,席丽娜,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。