【技术实现步骤摘要】
基于人工智能的字符串处理方法及相关设备
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的字符串处理方法及相关设备。
技术介绍
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑,既使用“规律字符串”提取因子。然而,传统的正则表达式都是人为根据文本数据预定义的。这种方式,由于文本数据的缺乏、格式多变,需要经常根据业务需求人为的去重新定义或者更新正则表达式,效率及其低下。因此,如何智能地生成符合要求的正则表达式是一个亟待解决的技术问题。
技术实现思路
鉴于以上内容,有必要提供一种基于人工智能的字符串处理方法及相关设备,能够智能地生成符合要求的正则表达式。本专利技术的第一方面提供一种基于人工智能的字符串处理方法,所述基于人工智能的字符串处理方法包括:接收输入的多个因子,其中,所述因子为需要从文本中提取的字段;从区块链中获取与所述多个因子匹配的多个字符串,其中,每个所述字符串包括多个子串;从所述多个字符串的多个子串中,将所述多个字符串均包含的子串确定为公共子串;通过开发语言确定所述多个字符串中的非公共子串的字符所属的字符类型,其中,所述非公共子串为所述多个子串中不同于所述公共子串的子串;将所述非公共子串所属的字符类型映射成与所述字符类型匹配的规则字符串;将所述公共子串与所述规则字符串进行拼接,以构建正则表达式。 ...
【技术保护点】
1.一种基于人工智能的字符串处理方法,其特征在于,所述基于人工智能的字符串处理方法包括:/n接收输入的多个因子,其中,所述因子为需要从文本中提取的字段;/n从区块链中获取与所述多个因子匹配的多个字符串,其中,每个所述字符串包括多个子串;/n从所述多个字符串的多个子串中,将所述多个字符串均包含的子串确定为公共子串;/n通过开发语言确定所述多个字符串中的非公共子串的字符所属的字符类型,其中,所述非公共子串为所述多个子串中不同于所述公共子串的子串;/n将所述非公共子串所属的字符类型映射成与所述字符类型匹配的规则字符串;/n将所述公共子串与所述规则字符串进行拼接,以构建正则表达式。/n
【技术特征摘要】
1.一种基于人工智能的字符串处理方法,其特征在于,所述基于人工智能的字符串处理方法包括:
接收输入的多个因子,其中,所述因子为需要从文本中提取的字段;
从区块链中获取与所述多个因子匹配的多个字符串,其中,每个所述字符串包括多个子串;
从所述多个字符串的多个子串中,将所述多个字符串均包含的子串确定为公共子串;
通过开发语言确定所述多个字符串中的非公共子串的字符所属的字符类型,其中,所述非公共子串为所述多个子串中不同于所述公共子串的子串;
将所述非公共子串所属的字符类型映射成与所述字符类型匹配的规则字符串;
将所述公共子串与所述规则字符串进行拼接,以构建正则表达式。
2.根据权利要求1所述的基于人工智能的字符串处理方法,其特征在于,所述通过开发语言确定所述多个字符串中的非公共子串的字符所属的字符类型包括:
根据所述公共子串,从每个所述字符串中获得非公共子串;
按照位置先后顺序,依次通过开发语言判断所有所述非公共子串在每个位置的字符的字符类型;
将所有位置的字符类型进行组合,获得所有所述非公共子串的字符所属的的字符类型。
3.根据权利要求1所述的基于人工智能的字符串处理方法,其特征在于,所述将所述非公共子串所属的字符类型映射成与所述字符类型匹配的规则字符串包括:
获取所述非公共子串在每个位置的字符类型对应的字符标识;
针对每个位置的所述字符标识,根据正则语法映射关系,将所述字符标识进行映射,获得每个位置的规则字符;
将所有位置的规则字符进行组合,获得规则字符串。
4.根据权利要求1所述的基于人工智能的字符串处理方法,其特征在于,所述将所述公共子串与所述规则字符串进行拼接,以构建正则表达式包括:
获取所述公共子串在所述多个字符串中的第一位置;
获取所述规则字符串对应的非公共子串在所述多个字符串中的第二位置;
将所述公共子串与所述规则字符串按照所述第一位置和所述第二位置的衔接关系进行拼接,获得正则表达式。
5.根据权利要求1至4中任一项所述的基于人工智能的字符串处理方法,其特征在于,所述基于人工智能的字符串处理方法还包括:
获取多篇测试文档以及多个测试因子;
使用人工定义的预...
【专利技术属性】
技术研发人员:董润华,徐国强,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。