一种文本信息提取方法及计算机可读存储介质技术

技术编号:18289433 阅读:24 留言:0更新日期:2018-06-24 04:07
本发明专利技术涉及文本处理技术领域,本发明专利技术提供了一种文本信息提取方法,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;从所述付款方式相关的语句中提取出所述付款方式,包括:对所述付款方式相关的语句进行句法分析;在所述句法分析结果上进行语义角色标注;基于预设的推理逻辑获取所述付款方式。通过所述方法可保证合同文本付款信息的提取的准确性。

【技术实现步骤摘要】
一种文本信息提取方法及计算机可读存储介质
本专利技术关于文本处理
,尤其涉及一种文本信息提取方法及计算机可读存储介质。
技术介绍
书面语言是指人们在书写和阅读文章时所使用的语言,它是在口语的基础上发展来的,是在文字产生之后才出现的,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。广义“文本”:任何由书写所固定下来的任何话语。狭义“文本”:由语言文字组成的文学实体,代指“作品”,相对于作者、世界构成一个独立、自足的系统。简单来说,人们日常工作生活中使用到的使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。文本也是计算机的一种文档类型,该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。常见的文本文档的扩展名有.txt、.doc.、.docx、.wps等。计算机技术的应用范围越来越广泛和深入,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等,都可以从网络上获取到同类型的范本,再根据实际应用情况进行调整,用户便可进行使用。随着大数据时代的到来,数据的处理和分析都需依赖于历史文本数据,对于上述有固定格式要求的文书来说,不仅需要提取出同类型文本的结构化特征,以整体梳理相关的信息,还需针对用户自行填写或者补充的信息进行获取和识别,才能清晰识别每一份文本的特征。面临这种复杂的处理技术,有许多技术难题需要解决,其中,如何准确识别用户输入的信息内容,以更正确、清晰的对文本内容进行识别就是其中一个急需解决的难题。尤其在合同文本领域,其中涉及的金额、数量、付款方式等根据实际情况填写的内容,往往会由于各用户的用语习惯、表述方式不同,而出现同一概念对应不同内容的问题,若只是单纯的对相应内容进行提取,而不进行识别,可能会发生很多错误。
技术实现思路
基于上述技术问题,本专利技术提供了一种文本信息提取方法,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;从所述付款方式相关的语句中提取出所述付款方式,包括:对所述付款方式相关的语句进行句法分析;在所述句法分析结果上进行语义角色标注;基于预设的推理逻辑获取所述付款方式。在一实施例中,所述从所述金额信息相关的语句中提取出所述金额信息更包含确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。在一实施例中,所述预设条件随机场模型是通过合同文本样本对条件随机场算法训练得出。在一实施例中,所述基于特定标注获取所述金额信息具体包含从所述序列化标注后的各元素中查找获得标注为数字和单位的元素,分别确认为所述金额信息中的金额数量和货币单位。在一实施例中,所述预设的推理逻辑包含预先设定的固定推理逻辑。在一实施例中,所述预设的推理逻辑包含基于本体知识库的逻辑推理引擎。在一实施例中,所述基于预设的推理逻辑获取所述付款方式具体包含基于预设的推理逻辑和所述付款方式相关语句的上下文语句,获取所述付款方式。此外,本专利技术还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述文本信息提取方法。通过本专利技术所提供的文本信息提取方法,可从合同文本中正确的提取出金额信息和付款进度。这重要两项信息对合同文本的语义理解非常重要,且相对其他,如合同标题、生效日期等表述方式相对规范的信息而言,用户对其的表述可能包含多种情况,本专利技术所提供的技术方法,结合句法分析、短文本分类器、条件随机场模型等技术可提取出金额信息,并基于语义角色标注和设定的推理逻辑来实现付款方式的提取,不仅可准确获取文本中的相关信息,而且能按照固定的格式进行统一输出,便于后续的统计、归类处理。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1绘示本专利技术一较佳实施例所提供的文本信息提取方法流程图;图2绘示本图1所示实施例中步骤S105的方法流程;图3绘示图1所示实施例步骤S105中句法分析和语义角色标注过程示意图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。请参照图1,图1绘示本专利技术一较佳实施例所提供的文本信息提取方法流程图。如图1所示,所述方法主要应用于合同文本中付款信息的提取,其中付款信息包含金额信息及付款方式,具体包含以下步骤:S101,从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句。具体而言,合同文本具有一定的固定结构,但每个结构部分所包含的具体内容有所差异,一般而言,同类合同文本中,各部分包含的具体内容有些是固定的,而有些则需要通过用户基于实际情况进行输入,例如甲方、乙方的身份信息、合同生效日期、金额信息和付款方式等。如此一来,可先对用户录入信息进行定位来提取合同文本中的金额信息和付款方式,具体的提取方式可包含多样,本专利技术不做限制。S103,从所述金额信息相关的语句中提取出所述金额信息。具体而言,金额信息包含金额分类、金额数量和货币单位,以语句“本合同含税总金额:74245元”为例,其中,“总额”表示金额分类,“74245”表示金额数量,“元”表示货币单位,那么从该语句从提取出的金额信息为“总额74245元”。由于合同中表示金额的方式有多种,通过提取出这三类信息,则可明确具体的金额信息,具体可参照表1,如下:表1如表1所示,各合同中的金额信息相关语句表述方式会存在差异,例如“总金额”、“总计”、“合计”等均表示金额分类为:总额。而语句“汽车配件销售(轮胎)元/个1850”总并没有直接与金额分类相关的词语,但可理解其表示的金额分类为:单价。本实施例中,确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。其中预设的短文本分类器是基于大量合同文本训练得出的。具体而言,通过句法分析可对语句的词语语法进行分析,再基于预设的短文本分类器对相关词语进行归类分析,从而确定语句中的金额分类。由于预设的短文本分类器是基于大量合同文本训练得出,故可更准确的对词语进行分类分析,从而得出更贴近实际的分析结果。如上文所述,金额信息中更包含金额数量和货币单位,而该部分信息的提取主要借助条件本文档来自技高网
...
一种文本信息提取方法及计算机可读存储介质

【技术保护点】
1.一种文本信息提取方法,其特征在于,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;从所述付款方式相关的语句中提取出所述付款方式,包括:对所述付款方式相关的语句进行句法分析;在所述句法分析结果上进行语义角色标注;基于预设的推理逻辑获取所述付款方式。

【技术特征摘要】
1.一种文本信息提取方法,其特征在于,所述方法应用于合同文本中付款信息的提取,其中所述付款信息包含金额信息及付款方式,具体包含步骤:从所述合同文本中分别提取出与所述金额信息和所述付款方式相关的语句;从所述金额信息相关的语句中提取出所述金额信息,包括基于预设条件随机场模型对与所述金额信息相关的语句进行序列化标注,基于特定标注获取所述金额信息;从所述付款方式相关的语句中提取出所述付款方式,包括:对所述付款方式相关的语句进行句法分析;在所述句法分析结果上进行语义角色标注;基于预设的推理逻辑获取所述付款方式。2.如权利要求1所述的文本信息提取方法,其特征在于,所述从所述金额信息相关的语句中提取出所述金额信息更包含确定所述金额信息相关的语句中包含的金额分类,具体包含对所述金额信息相关的语句进行句法分析,并基于预设的短文本分类器获取所述金额分类。3.如权利要求1所述的文本信息提取方法,...

【专利技术属性】
技术研发人员:朱敬华肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1