正则表达式生成方法、系统以及介质技术方案

技术编号:41176313 阅读:17 留言:0更新日期:2024-05-07 22:12
本申请公开了正则表达式生成方法、系统以及介质。该方法通过获取输入文本框中的待提取内容、待提取内容对应的行首字符与行尾字符、以及获取分组标识的状态值,在状态值为第一状态值的情况下,基于预设解析器函数将单组待提取内容进行解析并存储到对应的内容数组中,并将该单组待提取内容对应的行首字符与行尾字符与对应的内容数组进行关联;基于特殊字符正则表达式与第一位置信息,以及汉字字符正则表达式与第三位置信息,以及普通字符正则表达式与第四位置信息,进行拼接得到目标正则表达式。实现了人工通过简单文本输入,基于输入内容自动生成正则表达式,降低人工学习成本,提高生成效率,有效应对需求生成大量正则表达式的应用场景。

【技术实现步骤摘要】

本申请涉及互联网,具体而言,涉及一种正则表达式生成方法、系统以及介质


技术介绍

1、媒体新闻行业在处理大量文本数据时,需要借助高度技术化的工具和方法,其中正则表达式是一项强大的技术工具,为数据研发人员提供了一种高效处理文本数据的方式。在数据爬取和采集方面,媒体新闻行业不断地从互联网上获取各种数据资源,包括央、省、市县媒体新闻网站、客户端、微信等),以采集新闻文章和信息。正则表达式在这个过程中发挥了重要作用。通过编写复杂的正则表达式,可以解析网页内容,进行清理和预处理操作,去除无关信息、标点符号和html标签等。这种自动化处理方式不仅可以用于搜索和替换这些文本中不需要的部分,从而净化数据,使其更容易进行进一步的分析和建模。也可以用于从大量的文本数据中提取关键信息,如主题、关键词、文章标题、作者、发布日期和正文等。通过编写适当的正则表达式,可以使这一过程自动化,从而加快数据采集速度并减少人工干预。正则表达式还在数据逻辑处理和关联方面发挥着关键作用。它可以用于搜索和识别特定关键词,快速进行数据匹配,帮助开发人员在数据开发过程中高效地进行逻辑处理和关联操作,从而本文档来自技高网...

【技术保护点】

1.一种正则表达式生成方法,其特征在于,所述正则表达式生成方法包括:

2.根据权利要求1所述的正则表达式生成方法,其特征在于,在所述获取分组标识的状态值之后还包括:

3.根据权利要求1所述的正则表达式生成方法,其特征在于,在所述对每个所述内容数组、以及对应的行首字符以及行尾字符进行特殊字符识别之后,还包括:

4.根据权利要求1所述的正则表达式生成方法,其特征在于,在所述对每个所述内容数组、以及每个所述内容数组对应的行首字符以及行尾字符进行汉字字符识别之后,还包括:

5.根据权利要求4所述的正则表达式生成方法,其特征在于,在所述记录每个所述第...

【技术特征摘要】

1.一种正则表达式生成方法,其特征在于,所述正则表达式生成方法包括:

2.根据权利要求1所述的正则表达式生成方法,其特征在于,在所述获取分组标识的状态值之后还包括:

3.根据权利要求1所述的正则表达式生成方法,其特征在于,在所述对每个所述内容数组、以及对应的行首字符以及行尾字符进行特殊字符识别之后,还包括:

4.根据权利要求1所述的正则表达式生成方法,其特征在于,在所述对每个所述内容数组、以及每个所述内容数组对应的行首字符以及行尾字符进行汉字字符识别之后,还包括:

5.根据权利要求4所述的正则表达式生成方法,其特征在于,在所述记录每个所述第二子字符串的第四位置信息之后,还包括:

...

【专利技术属性】
技术研发人员:张宇宜高耀洋余庆邦刘丽芳张健
申请(专利权)人:传播大脑科技浙江股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1