文本有效信息的抽取方法及装置制造方法及图纸

技术编号:22330339 阅读:32 留言:0更新日期:2019-10-19 12:19
本申请提供了一种文本有效信息的抽取方法及装置,其中,所述方法包括:确定预设抽取模板信息中的结构化信息;在待抽取文本信息中确定第一抽取信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息;生成最终抽取信息。本申请所提供的文本有效信息的抽取方法及装置能够通过递进式的抽取方法,针对不同的文本情况采用不同的抽取方法,不遗漏地抽取整体文本中的有效信息,进而有效提高文本有效信息的抽取准确率。

【技术实现步骤摘要】
文本有效信息的抽取方法及装置
本申请涉及自然语言处理
,尤其涉及一种文本有效信息的抽取方法及装置。
技术介绍
文本审核是按照法律法规以及当事人的约定对文本的内容、格式进行审核。通常,文本中的信息包括有效信息和用于辅助描述的无效信息,而对文本的审核,主要是针对文本中的有效信息,因此,在进行文本审核之前,需要首先对文本中的有效信息进行确定。目前,文本有效信息的抽取方法主要是通过人工确定文本中需要抽取的文本信息。审核人员首先需要仔细阅读全部文本内容,然后凭借自身从业经验在文本中定位各个符合抽取标准的有效信息。但是,待抽取的文本通常篇幅较长,审核人员在阅读上会浪费大量时间,同时,由于审核人员的判断标准过于主观,很容易遗漏文本中的有效信息,或者误判无效信息为有效信息,造成后续文本审核的不准确。为了提高文本有效信息的确定效率和准确性,现今逐渐采用自动化信息抽取方法,即采用计算机抽取文本中的有效信息。通过语义分析,从整体文本信息中确定与预先设定的待抽取有效信息点相匹配的信息,作为有效信息。但是,文本的种类繁多,计算机难以理解和识别全部种类的文本,这样会令计算机在抽取无法充分理解和识别的种类所对应的文本时,无法准确确定文本中的有效信息,令确定文本有效信息的准确性大大降低。
技术实现思路
本申请提供了一种文本有效信息的抽取方法及装置,以解决现有计算机抽取文本有效信息准确性低的问题。第一方面,本申请实施例提供了一种文本有效信息的抽取方法,包括:确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。第二方面,本申请实施例提供了一种文本有效信息的抽取装置,包括:结构化信息确定模块,用于确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;第一抽取信息确定模块,用于在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;正则表达式生成模块,用于确定所述预设抽取模板信息中非结构化信息对应的正则表达式;第二抽取信息确定模块,用于结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;第三抽取信息确定模块,用于利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;最终抽取信息生成模块,用于生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。由以上技术可知,本申请提供了一种文本有效信息的抽取方法及装置,首先,确定预设抽取模板信息中的结构化信息;在待抽取文本信息中确定出与结构化信息的语义相似度大于预设相似度阈值的第一抽取信息。然后,确定预设抽取模板信息中非结构化信息对应的正则表达式,并结合各所述正则表达式,确定待抽取文本信息中与正则表达式相匹配的第二抽取信息。之后,利用自然语言处理工具和深度学习模型,确定待抽取文本信息中与预设抽取模板信息相匹配的第三抽取信息。最后,汇总第一抽取信息、第二抽取信息和第三抽取信息,生成最终抽取信息。可见,本申请所提供的文本有效信息的抽取方法及装置能够通过递进式的抽取方法,针对不同的文本情况采用不同的抽取方法,不遗漏地抽取整体文本中的有效信息,进而有效提高文本有效信息的抽取准确率。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种文本有效信息的抽取方法的流程图;图2为本申请实施例提供的一种确定结构化信息的方法的流程图;图3为本申请实施例提供的一种建立预设抽取模板信息的方法的流程图;图4为本申请实施例提供的一种确定第一抽取信息的方法的流程图;图5为本申请实施例提供的一种剔除第一抽取信息中无用信息的方法的流程图;图6为本申请实施例提供的一种确定正则表达式的方法的流程图;图7为本申请实施例提供的一种确定第二抽取信息的方法的流程图;图8为本申请实施例提供的一种剔除第二抽取信息中无用信息的方法的流程图;图9为本申请实施例提供的一种确定第三抽取信息的方法的流程图;图10为本申请实施例提供的一种文本有效信息的抽取装置的示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。文本审核是按照法律法规以及当事人的约定对文本的内容、格式进行审核。通常,文本中的信息包括有效信息和用于辅助描述的无效信息,而对文本的审核,主要是针对文本中的有效信息,因此,在进行文本审核之前,需要首先对文本中的有效信息进行确定。目前,文本有效信息的抽取方法主要是通过人工确定文本中需要抽取的文本信息。审核人员首先需要仔细阅读全部文本内容,然后凭借自身从业经验在文本中定位各个符合抽取标准的有效信息。但是,待抽取的文本通常篇幅较长,审核人员在阅读上会浪费大量时间,同时,由于审核人员的判断标准过于主观,很容易遗漏文本中的有效信息,或者误判无效信息为有效信息,造成后续文本审核的不准确。为了提高文本有效信息的确定效率和准确性,现今逐渐采用自动化信息抽取方法,即采用计算机抽取文本中的有效信息。通过语义分析,从整体文本信息中确定与预先设定的待抽取有效信息点相匹配的信息,作为有效信息。但是,文本的种类繁多,计算机难以理解和识别全部种类的文本,这样会令计算机在抽取无法充分理解和识别的种类所对应的文本时,无法准确确定文本中的有效信息,令确定文本有效信息的准确性大大降低。由此可见,采用现有的自动化信息抽取方法,虽然抽取效率较高,但是依然存在抽取准确率较低的问题。为了解决上述问题,本申请实施例提供了一种文本有效信息的抽取方法及装置。下面是本申请的方法实施例。图1为本申请实施例提供的一种文本有效信息的抽取方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种可操作设备中。请参见图1,该方法包括以下步骤:S1、确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,本文档来自技高网
...

【技术保护点】
1.一种文本有效信息的抽取方法,其特征在于,所述方法包括:确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。

【技术特征摘要】
1.一种文本有效信息的抽取方法,其特征在于,所述方法包括:确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。2.根据权利要求1所述的方法,其特征在于,所述确定预设抽取模板信息中的结构化信息之前包括:从文本库中获取待处理样本,所述待处理样本为包含通用信息和特有领域信息的文本,所述通用信息为各领域文本中均可出现的信息,所述特有领域信息为仅在某一领域文本中出现的信息;利用语义分析法,提取所述待处理样本中通用信息所对应的通用关键词,以及特有领域信息所对应的特有关键词;训练同类待处理样本的通用关键词和特有关键词,生成领域抽取模板信息,所述同类待处理样本为具有同一特有领域的各待处理样本;从全部领域抽取模板信息中确定预设抽取模板信息,所述预设抽取模板信息为与待抽取文本信息具有相同特有领域的领域抽取模板信息。3.根据权利要求1所述的方法,其特征在于,所述确定预设抽取模板信息中的结构化信息包括:利用文本结构模型,识别所述预设抽取模板信息中各有效信息的文本结构;匹配所述文本结构与预设文本格式,确定结构化信息。4.根据权利要求1所述的方法,其特征在于,所述在待抽取文本信息中确定第一抽取信息包括:划分待抽取文本信息为若干单句;从所述结构化信息中提取待比较信息,所述待比较信息为位于结构化信息中特殊符号之前,或者特殊符号之后的字符;计算所述单句与各待比较信息的字相似度和词相似度;结合所述字相似度和所述词相似度,计算单句与待比较信息的语义相似度;确定第一抽取信息,所述第一抽取信息为语义相似度大于预设相似度阈值的全部单句。5.根据权利要求4所述的方法,其特征在于,所述在待抽取文本信息中确定第一抽取信息还包括:利用语义分析法,划分各待抽取单句为若干词组,所述待抽取单句为语义相似度大于预设相似度阈值的单句;计算各词组与抽取规则的相似度,得到词组相似度,所述抽取规则为结构化信息中待比较信息以外的字符;从各待抽取单句中剔除无用词组,得到有效单句,所述无用词组为词组相似度低于预设词组相似度阈值的词组;确定第一抽取信息...

【专利技术属性】
技术研发人员:晋耀红李健铨赵红红陈夏飞
申请(专利权)人:安徽省泰岳祥升软件有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1