【技术实现步骤摘要】
文本有效信息的抽取方法及装置
本申请涉及自然语言处理
,尤其涉及一种文本有效信息的抽取方法及装置。
技术介绍
文本审核是按照法律法规以及当事人的约定对文本的内容、格式进行审核。通常,文本中的信息包括有效信息和用于辅助描述的无效信息,而对文本的审核,主要是针对文本中的有效信息,因此,在进行文本审核之前,需要首先对文本中的有效信息进行确定。目前,文本有效信息的抽取方法主要是通过人工确定文本中需要抽取的文本信息。审核人员首先需要仔细阅读全部文本内容,然后凭借自身从业经验在文本中定位各个符合抽取标准的有效信息。但是,待抽取的文本通常篇幅较长,审核人员在阅读上会浪费大量时间,同时,由于审核人员的判断标准过于主观,很容易遗漏文本中的有效信息,或者误判无效信息为有效信息,造成后续文本审核的不准确。为了提高文本有效信息的确定效率和准确性,现今逐渐采用自动化信息抽取方法,即采用计算机抽取文本中的有效信息。通过语义分析,从整体文本信息中确定与预先设定的待抽取有效信息点相匹配的信息,作为有效信息。但是,文本的种类繁多,计算机难以理解和识别全部种类的文本,这样会令计算机在抽取无法充分理解和识别的种类所对应的文本时,无法准确确定文本中的有效信息,令确定文本有效信息的准确性大大降低。
技术实现思路
本申请提供了一种文本有效信息的抽取方法及装置,以解决现有计算机抽取文本有效信息准确性低的问题。第一方面,本申请实施例提供了一种文本有效信息的抽取方法,包括:确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模 ...
【技术保护点】
1.一种文本有效信息的抽取方法,其特征在于,所述方法包括:确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。
【技术特征摘要】
1.一种文本有效信息的抽取方法,其特征在于,所述方法包括:确定预设抽取模板信息中的结构化信息,所述预设抽取模板信息为需要从待抽取文本信息中抽取的有效信息,所述结构化信息为具有预设文本格式的模板信息;在待抽取文本信息中确定第一抽取信息,所述第一抽取信息为与所述结构化信息的语义相似度大于预设相似度阈值的待抽取文本信息;确定所述预设抽取模板信息中非结构化信息对应的正则表达式;结合各所述正则表达式,确定所述待抽取文本信息中的第二抽取信息,所述第二抽取信息为与所述正则表达式相匹配的待抽取文本信息;利用自然语言处理工具和深度学习模型,确定所述待抽取文本信息中的第三抽取信息,所述第三抽取信息与所述预设抽取模板信息相匹配;生成最终抽取信息,所述最终抽取信息由所述第一抽取信息、所述第二抽取信息和所述第三抽取信息组成。2.根据权利要求1所述的方法,其特征在于,所述确定预设抽取模板信息中的结构化信息之前包括:从文本库中获取待处理样本,所述待处理样本为包含通用信息和特有领域信息的文本,所述通用信息为各领域文本中均可出现的信息,所述特有领域信息为仅在某一领域文本中出现的信息;利用语义分析法,提取所述待处理样本中通用信息所对应的通用关键词,以及特有领域信息所对应的特有关键词;训练同类待处理样本的通用关键词和特有关键词,生成领域抽取模板信息,所述同类待处理样本为具有同一特有领域的各待处理样本;从全部领域抽取模板信息中确定预设抽取模板信息,所述预设抽取模板信息为与待抽取文本信息具有相同特有领域的领域抽取模板信息。3.根据权利要求1所述的方法,其特征在于,所述确定预设抽取模板信息中的结构化信息包括:利用文本结构模型,识别所述预设抽取模板信息中各有效信息的文本结构;匹配所述文本结构与预设文本格式,确定结构化信息。4.根据权利要求1所述的方法,其特征在于,所述在待抽取文本信息中确定第一抽取信息包括:划分待抽取文本信息为若干单句;从所述结构化信息中提取待比较信息,所述待比较信息为位于结构化信息中特殊符号之前,或者特殊符号之后的字符;计算所述单句与各待比较信息的字相似度和词相似度;结合所述字相似度和所述词相似度,计算单句与待比较信息的语义相似度;确定第一抽取信息,所述第一抽取信息为语义相似度大于预设相似度阈值的全部单句。5.根据权利要求4所述的方法,其特征在于,所述在待抽取文本信息中确定第一抽取信息还包括:利用语义分析法,划分各待抽取单句为若干词组,所述待抽取单句为语义相似度大于预设相似度阈值的单句;计算各词组与抽取规则的相似度,得到词组相似度,所述抽取规则为结构化信息中待比较信息以外的字符;从各待抽取单句中剔除无用词组,得到有效单句,所述无用词组为词组相似度低于预设词组相似度阈值的词组;确定第一抽取信息...
【专利技术属性】
技术研发人员:晋耀红,李健铨,赵红红,陈夏飞,
申请(专利权)人:安徽省泰岳祥升软件有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。