一种基于正则表达式建立文本抽取模型的方法及设备技术

技术编号:30435496 阅读:59 留言:0更新日期:2021-10-24 17:35
本发明专利技术涉及一种基于正则表达式建立文本抽取模型的方法,包括如下步骤:S1、编写若干个正则表达式;S2、根据所述正则表达式,在语料库中抽取语料集;S3、将所述语料集分割为训练集与验证集;S4、构建文本抽取模型;S5、将训练集输入至文本抽取模型,训练文本抽取模型;S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。文本抽取模型进行验证。文本抽取模型进行验证。

【技术实现步骤摘要】
一种基于正则表达式建立文本抽取模型的方法及设备


[0001]本专利技术涉及一种基于正则表达式建立文本抽取模型的方法及设备,属于自然语言处理领域。

技术介绍

[0002]正则表达式是对字符串规则的一种描述方法,通常被用来检索、替换那些符合某个规则的文本。例如,提取电子邮件的正则表达式为:/^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$/,其中的\w代表任意字符,{2,3}代表出现两次或三次,该正则表达式可以识别出xxxx@xxxx.xxx格式的电子邮件地址。正则表达式表达灵活,可以匹配几乎任何模式的文字。但应用正则表达式的前提是,对拟提取的信息的“模式”或“规则”要非常明确。因此不适用于没有明显规则的文本中的关键信息提取。
[0003]有监督文本抽取模型的建立过程中,迭代训练占据了大量的时间,所使用的训练数据在一定程度上决定了模型的性能,而大量训练数据又需要人工进行标注。
[0004]条件随机场模型(CRF模型)是属于有监督文本抽取模型中的一种,常用于标注语料中词语的词性(比如说,标注出语料中的命名实体或动词、名词等)。CRF模型对于没有明显模式(人工很难观察到特定规则)的关键信息具有较强的抽取能力。但CRF模型的准确率不由其本身决定,而主要取决于用以训练的标注语料是否和目标测试语料比较一致,需要事先准备较多的人工标注语料,且抽取效果不稳定、准确性难以预估,不适用于对抽取准确性有比较严格要求的场景。
[0005]公开号为CN201910455064.3的专利《关键词语料标注训练提取工具》公开了一种可降低人工标注过程繁复度,并能提高海量关键词语料标注效率和准确率的标注训练工具。步骤如下:关键词语料标注准备模块对不同来源的海量语料数据进行区分,半自动化语料关键词标注模块创建关键词标注任务,自主选择适配算法并开展基于算法模型的自动标注,通过集成CHI、LDA、TEXTRANK、TFIDF中至少一种关键词抽取算法,对待标注文本语料数据进行预标注处理,并对多种算法标注结果进行融合,当标注任务完成后,反馈式关键词标注模型学习训练模块对关键词标注算法模型进行训练;关键词标注模型效果评估模块对模型指标量化标注效果进行自动评估。

技术实现思路

[0006]为了解决上述现有技术中存在的问题,本专利技术提供一种基于正则表达式建立文本抽取模型的方法,通过编写少量正则表达式代替人工标注,有效减少建立有监督文本抽取模型所需要的人力成本及时间。
[0007]本专利技术的技术方案如下:
[0008]技术方案一:
[0009]一种基于正则表达式建立文本抽取模型的方法,包括如下步骤:
[0010]S1、编写若干个正则表达式;
[0011]S2、根据所述正则表达式,在语料库中抽取语料集;
[0012]S3、将所述语料集分割为训练集与验证集;
[0013]S4、构建文本抽取模型;
[0014]S5、将训练集输入至文本抽取模型,训练文本抽取模型;
[0015]S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。
[0016]进一步的,所述文本抽取模型为CRF模型。
[0017]进一步的,步骤S6中还设置有一阈值;若验证模型的正确率低于所述阈值,则跳转至步骤S1。
[0018]技术方案二:
[0019]一种基于正则表达式的文本抽取模型建立设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
[0020]S1、编写若干个正则表达式;
[0021]S2、根据所述正则表达式,在语料库中抽取语料集;
[0022]S3、将所述语料集分割为训练集与验证集;
[0023]S4、构建文本抽取模型;
[0024]S5、将训练集输入至文本抽取模型,训练文本抽取模型;
[0025]S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。
[0026]进一步的,所述文本抽取模型为CRF模型。
[0027]进一步的,步骤S6中还设置有一阈值;若验证模型的正确率低于所述阈值,则跳转至步骤S1。
[0028]本专利技术具有如下有益效果:
[0029]1、本专利技术通过编写少量正则表达式代替人工标注,有效减少建立模型所需要的人力成本及时间。
[0030]2、本专利技术结合正则表达式与CRF模型的优点,能够高效率、精确地提取文本中的关键信息,具体体现在:
[0031]基于正则表达式的特性,本专利技术在处理带固定模板的文本领域效果更佳,比如审计领域、专利领域。同时将文本抽取模型作为最终文本信息抽取的执行器,不受限于待抽取信息是否具有严格的模版,抽取范围远高于纯粹基于“正则表达式”的方法,从而确保本专利技术能适用于各领域。
[0032]3、本专利技术增加少量正则表达式,再重复执行步骤S1至S6,以重新训练CRF模型。即可有效提升CRF模型抽取效果,前期编写的规则也不会被废弃。
附图说明
[0033]图1为本专利技术的流程图;
[0034]图2为实施例四的流程图。
具体实施方式
[0035]下面结合附图和具体实施例来对本专利技术进行详细的说明。
[0036]实施例一
[0037]参见图1,一种基于正则表达式建立文本抽取模型的方法,包括如下步骤:
[0038]S1、编写若干个正则表达式;
[0039]S2、根据所述正则表达式,在语料库中抽取语料集;
[0040]S3、将所述语料集分割为训练集(80%)与验证集(20%);
[0041]S4、构建文本抽取模型;
[0042]S5、将训练集输入至文本抽取模型,训练文本抽取模型;
[0043]S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。
[0044]本实施例的有益效果在于通过编写少量正则表达式代替人工标注,有效减少建立模型所需要的人力成本及时间。
[0045]实施例二
[0046]进一步的,所述文本抽取模型为CRF模型。
[0047]在本实施例中,利用开源的“python

crfsuite”开发包构建CRF模型。
[0048]本实施例的进步之处在于,结合正则表达式与CRF模型的优点,能够高效率、精确地提取文本中的关键信息,具体体现在:
[0049]基于正则表达式的特性,本专利技术在处理带固定模板的文本领域效果更佳,比如审计领域、专利领域。同时将文本抽取模型作为最终文本信息抽取的执行器,不受限于待抽取信息是否具有严格的模版,抽取范围远高于纯粹基于“正则表达式”的方法,从而确保本专利技术能适用于各领域。
[0050]实施例三
[0051]进一步的,CRF模型还设置有一阈值(在本实施例中,设阈值为90%),若所述模型准确率低于90%,则跳转至步骤S1。
[0052]本实施例的进步之处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于正则表达式建立文本抽取模型的方法,其特征在于,包括如下步骤:S1、编写若干个正则表达式;S2、根据各所述正则表达式,在语料库中抽取语料集;S3、将所述语料集分割为训练集与验证集;S4、构建文本抽取模型;S5、将训练集输入至文本抽取模型,训练文本抽取模型;S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。2.根据权利要求1所述的一种基于正则表达式建立文本抽取模型的方法,其特征在于,所述文本...

【专利技术属性】
技术研发人员:苏江文王燕蓉陈江海张垚庄莉梁懿
申请(专利权)人:国网信息通信产业集团有限公司国网信通亿力科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1