【技术实现步骤摘要】
一种基于正则表达式建立文本抽取模型的方法及设备
[0001]本专利技术涉及一种基于正则表达式建立文本抽取模型的方法及设备,属于自然语言处理领域。
技术介绍
[0002]正则表达式是对字符串规则的一种描述方法,通常被用来检索、替换那些符合某个规则的文本。例如,提取电子邮件的正则表达式为:/^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$/,其中的\w代表任意字符,{2,3}代表出现两次或三次,该正则表达式可以识别出xxxx@xxxx.xxx格式的电子邮件地址。正则表达式表达灵活,可以匹配几乎任何模式的文字。但应用正则表达式的前提是,对拟提取的信息的“模式”或“规则”要非常明确。因此不适用于没有明显规则的文本中的关键信息提取。
[0003]有监督文本抽取模型的建立过程中,迭代训练占据了大量的时间,所使用的训练数据在一定程度上决定了模型的性能,而大量训练数据又需要人工进行标注。
[0004]条件随机场模型(CRF模型)是属于有监督文本抽取模型中的一种,常用于标注语料中词语的词性(比如说 ...
【技术保护点】
【技术特征摘要】
1.一种基于正则表达式建立文本抽取模型的方法,其特征在于,包括如下步骤:S1、编写若干个正则表达式;S2、根据各所述正则表达式,在语料库中抽取语料集;S3、将所述语料集分割为训练集与验证集;S4、构建文本抽取模型;S5、将训练集输入至文本抽取模型,训练文本抽取模型;S6、将验证集输入训练好的文本抽取模型,对训练好的文本抽取模型进行验证。2.根据权利要求1所述的一种基于正则表达式建立文本抽取模型的方法,其特征在于,所述文本...
【专利技术属性】
技术研发人员:苏江文,王燕蓉,陈江海,张垚,庄莉,梁懿,
申请(专利权)人:国网信息通信产业集团有限公司国网信通亿力科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。