一种文本录入点定位方法及计算机可读存储介质技术

技术编号:18237711 阅读:25 留言:0更新日期:2018-06-17 00:55
本发明专利技术涉及文本处理技术领域,本发明专利技术提供了一种文本录入点定位方法,所述方法包含步骤:将文本内容转换成多个序列;基于预设神经网络模型对所述各个序列进行计算,分别获得各个所述序列对应的输出值;根据所述输出值确定录入点位置。本发明专利技术所提供的技术方案,借助预先训练得到的神经网络模型可获知文本中的录入点的位置,并且可通过对识别信息的设置,可根据输出值确定该输入值即序列中是否包含录入点,以及所包含的录入信息的类型;由于序列拆分的方法可根据实际需求进行设定,故可通过对文本内容拆分方法的调整以及实际需求来确定录入点定位。 1

A text entry point location method and computer readable storage medium

The invention relates to the field of text processing technology. The invention provides a method for text entry point positioning. The method comprises the steps of converting the text content into multiple sequences; calculating the each sequence based on a preset neural network model, obtaining the output values corresponding to each of the sequence columns, respectively; according to the output, the output value of the sequence is obtained. The value determines the entry point position. The technical scheme provided by the present invention can obtain the position of the entry point in the text with the aid of a pre trained neural network model, and can determine whether the input value is included in the sequence according to the output value, and the type of input information included in the sequence by setting the identification information. The method can be set according to actual needs, so the location of entry points can be determined by adjusting the content of the text and adjusting the actual demand. One

【技术实现步骤摘要】
一种文本录入点定位方法及计算机可读存储介质
本专利技术关于文本处理
,尤其涉及一种文本录入点定位方法及计算机可读存储介质。
技术介绍
书面语言是指人们在书写和阅读文章时所使用的语言,它是在口语的基础上发展来的,是在文字产生之后才出现的,通过文字及书面语言的表现形式可对所需表达或者记录的信息进行记录保存。文本,是指书面语言的表现形式,从文学角度说,通常是具有完整、系统含义的一个句子或多个句子的组合。一个文本可以是一个句子、一个段落或者一个篇章。广义“文本”:任何由书写所固定下来的任何话语。狭义“文本”:由语言文字组成的文学实体,代指“作品”,相对于作者、世界构成一个独立、自足的系统。简单来说,人们日常工作生活中使用到的使用文字记载的文献、文书等都属于文本。传统的文本一般是以纸张作为载体进行保存。文本也是计算机的一种文档类型,该类文档主要用于记载和储存文字信息,而不是图像、声音和格式化数据。常见的文本文档的扩展名有.txt、.doc.、.docx、.wps等。随着计算机技术的应用范围越来越广泛和深入,电子文本的应用也越来越广泛,各类文本类型都可以在网络上获取得到。尤其是一些具备固定格式要求的文书,例如各种合同、协议、证明文件等,都可以从网络上获取到同类型的范本,再根据实际应用情况进行调整,用户便可进行使用。随着大数据时代的到来,数据的处理和分析都需依赖于历史文本数据,对于上述有固定格式要求的文书来说,不仅需要提取出同类型文本的结构化特征,以整体梳理相关的信息,还需针对用户自行填写或者补充的信息进行获取和识别,才能清晰识别每一份文本的特征。面临这种复杂的处理技术,有许多技术难题需要解决,其中,如何定位文本录入点的位置,以更准确获取用户输入信息就是其中一个急需解决的难题。
技术实现思路
基于上述技术问题,本专利技术提供了一种文本录入点定位方法,所述方法包含步骤:将文本内容转换成多个序列;基于预设神经网络模型对所述各个序列进行计算,分别获得各个所述序列对应的输出值;根据所述输出值确定录入点位置。在一实施例中,所述将文本内容转换成多个序列的方法包含按照句式结构对所述文本内容进行转换。在一实施例中,所述将文本内容转换成多个序列的方法包含按照内容特征对所述文本内容进行转换。在一实施例中,获得所述预设神经网络模型的训练方法包含步骤:准备训练样本文本;从所述样本中提取输入值,并设定每个输入值对应的输出值;选取神经网络算法;基于所述训练样本,对所述神经网络算法进行训练,获得所述预设神经网络模型。在一实施例中,所述训练样本与所述文本类型相同,所述输入值的提取方法与所述文本内容转换成多个序列的方法相同。在一实施例中,所述设定每个输入值对应的输出值的方法包含:设定标识录入点的识别信息;判断所述输入值中是否包含所述识别信息;根据所述判断结果和预设数据格式,获得所述对应的输出值。在一实施例中,所述文本类型为合同,所述识别信息包含合同事项、合同金额、付款条件及付款进度、收款方信息、合同有效期中的一项或者多项。在一实施例中,所述神经网络算法包括RNN神经网络算法。此外本专利技术还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的文本录入点定位方法。本专利技术所提供的技术方案,借助预先训练得到的神经网络模型可获知文本中的录入点的位置,并且可通过对识别信息的设置,可根据输出值确定该输入值即序列中是否包含录入点,以及所包含的录入信息的类型;由于序列拆分的方法可根据实际需求进行设定,故可通过对文本内容拆分方法的调整以及实际需求来确定录入点定位。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1绘示本专利技术一较佳实施例所提供的文本录入点定位方法流程图;图2绘示图1所示实施例中获得预设神经网络模型的训练方法流程图;图3绘示图2所示实施例中步骤S202中设定每个输入值对应的输出值的方法流程图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。本专利技术所提供的技术方案主要应用于具有规范格式、包含用户录入内容及固定内容的行业文本,例如合同、协议、证明文件等。本说明书中将以合同为例,以合同录入点定位的方法为切入点,对本专利技术所提供的技术方案进行详细说明。值得注意的是,本专利技术所提供的技术方案的应用范围并不限于此。请参照图1,图1绘示本专利技术一较佳实施例所提供的文本录入点定位方法流程图。如图1所示,所述方法具体包含以下步骤:S101,将文本内容转换成多个序列。其中,将文本内容转换成多个序列是指按照一定的预设规则,将文本内容拆分成具有一定顺序的数据列,本实施例中,所述序列的顺序为文本内容的前后顺序。文本内容转换的方式可包含按照句式结构对所述文本内容进行转换,以及按照内容特征对所述文本内容进行转换。具体而言,按照句式结构对文本内容进行转发是指将文本内容按照句子来做拆分,具体的实现方式可以为通过匹配特定的标点符号来进行拆分,例如可以句号、分号、逗号、换行符等为一个拆分点,将文本内容拆分成多个句子,并且按照内容的前后顺序进行标记,以生成相应的序列。举例而言,若设置以句号作为一个拆分点,那么劳动合同中的内容“一.劳动合同期限第一条本合同期限类型为三年期限合同。本合同生效日期2017年11月12日,终止日期2020年11月11日,其中试用期三个月。”将被拆分成序列1:“一.劳动合同期限第一条本合同期限类型为三年期限合同”,序列2:“本合同生效日期2017年11月12日,终止日期2020年11月11日,其中试用期三个月”。值得注意的是,选取相应的符号作为拆分点,以使得对文本内容的拆分更加准确、合理,是可以根据实际需求进行调整和优化的,本专利技术并不作任何限制。按照内容特征对所述文本内容进行转换是指可结合文本内容识别技术将文本内容按照一定的内容特征进行拆分,生成相应的序列。具体的,根据内容特征拆分可包含根据前后文的关系、文本内容的结构等方面进行拆分。再以上述示例中的劳动合同内容为例,若按照前后文关系,则可将其拆分成序列1:“一.劳动合同期限”,序列2“第一条本合同期限类型为三年期限合同。本合同生效日期2017年11月12日,终止日期2020年11月11日”,以及序列3:“其中试用期三个月”,前后文关系的确定可基于行业语料库的匹配获得,或者人工处理。若按照文本内容的结构来拆分,上述内容则可能被识别为序列1:“一.劳动合同期限”,以及序列2:“第一条本合同期限类型为三年期限合同。本合同生效日期2017年11月12日,终止日期2020年11月11日,其中试用期三个月”,同样的,按照文本内容的结构来拆分的实现方式可依赖人工处理,也可以是基于相应的训练模型得出,本专利技术并不作限制。由此可见,采用不同的文本内容转换方式,得本文档来自技高网
...
一种文本录入点定位方法及计算机可读存储介质

【技术保护点】
1.一种文本录入点定位方法,其特征在于,所述方法包含步骤:

【技术特征摘要】
1.一种文本录入点定位方法,其特征在于,所述方法包含步骤:将文本内容转换成多个序列;基于预设神经网络模型对所述各个序列进行计算,分别获得各个所述序列对应的输出值;根据所述输出值确定录入点位置。2.如权利要求1所述的文本录入点定位方法,其特征在于,所述将文本内容转换成多个序列的方法包含按照句式结构对所述文本内容进行转换。3.如权利要求1所述的文本录入点定位方法,其特征在于,所述将文本内容转换成多个序列的方法包含按照内容特征对所述文本内容进行转换。4.如权利要求1所述的文本录入点定位方法,其特征在于,获得所述预设神经网络模型的训练方法包含步骤:准备训练样本文本;从所述样本中提取输入值,并设定每个输入值对应的输出值;选取神经网络算法;基于所述训练样本,对所述神经网络算法进行训练,获得所述预设神经网络模型。5.如权利要求4所述的文本...

【专利技术属性】
技术研发人员:朱敬华肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1