当前位置: 首页 > 专利查询>陈包容专利>正文

从文本中抽取电子邮箱地址的方法技术

技术编号:21361687 阅读:58 留言:0更新日期:2019-06-15 09:23
本发明专利技术涉及文本数据挖掘提抽取技术领域,且公开了从文本中抽取电子邮箱地址的方法,包括以下操作步骤:预先创建专用数据库群;将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集,针对已获得的文本内容进行分词,获得分词数据集;针对分词数据集抽取电子邮箱地址。本发明专利技术通过将数据中的电子邮箱名称文本分为三个部分,以@为分隔点,在进行筛选抽取时,分步检测@左右两侧的文字信息,是否符合设定的阈值,以此来判断是否进行下一步检测,可以有效地减少计算机不必要的检测,提高了计算机提取文本数据时的速度,同时可以有效地剔除错误或相似的无效文本信息,进而提高了该从文本中抽取电子邮箱地址方法的精准度。

Method of Extracting E-mail Address from Text

The invention relates to the technical field of text data mining extraction, and discloses a method for extracting e-mail addresses from text, including the following steps: creating a special database group beforehand; dividing e-mail name text into three parts, and obtaining e-mail name segmentation data set, which is based on the text content obtained, and obtaining the segmentation data set for word segmentation; Data sets extract e-mail addresses. By dividing the text of e-mail name in data into three parts, and taking @ as the separating point, the text information on both sides of @ is detected step by step when filtering and extracting, and whether it meets the set threshold value, so as to judge whether the next detection is carried out, the unnecessary detection of computer can be effectively reduced, and the speed of extracting text data by computer can be improved. At the same time, the speed of extracting text data by computer can be improved. It can effectively eliminate errors or similar invalid text information, thus improving the accuracy of the method of extracting e-mail address from text.

【技术实现步骤摘要】
从文本中抽取电子邮箱地址的方法
本专利技术涉及文本数据挖掘提抽取
,具体为从文本中抽取电子邮箱地址的方法。
技术介绍
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科,其处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系,文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。而文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据中抽取特定信息的一种技术,其主要是由一些具体的单位构成的,例如句子、段落及篇章等,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合,从中抽取文本数据中的联系方式、电子邮箱地址、社交号码、短语、人名或地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。而在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率,故亟需提供一种从文本数据中精准快速地提取电子邮箱地址的方法。
技术实现思路
(一)解决的技术问题本专利技术提供了从文本中抽取电子邮箱地址的方法,具备精准率高、不会出现提取的信息出错和提取数据的效率高的优点,解决了在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率的问题。(二)技术方案本专利技术提供如下技术方案:从文本中抽取电子邮箱地址的方法,包括以下操作步骤:S01、预先创建专用数据库群;S02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;S03、针对已获得的文本内容,进行分词,获得分词数据集;S04、针对分词数据集,抽取电子邮箱地址。优选的,所述专用数据库群,包括创建域名后缀库、创建正常空格的数目阈值规则库、创建电子邮箱地址连接符号库,所述正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值。优选的,所述专用数据库群均支持用户自定义增减数据。优选的,所述电子邮箱名称分词数据集包括:电子邮箱第一部分,所述电子邮箱第一部分是指@左侧的文本;电子邮箱第二部分,所述电子邮箱第二部分是指@与域名之间的文本;电子邮箱第三部分,所述电子邮箱第三部分是指电子邮箱的域名后缀。优选的,所述电子邮箱名称文本是指英文、数字、电子邮箱地址连接符号的任意不连续地组合,且电子邮箱第一部分和电子邮箱第二部分中的英文、数字、标点符号之间无任何中文文字和空格。优选的,所述分词数据集根据已经获得的电子邮箱名称文本进行分词获取,且电子邮箱名称文本为电子格式的面向计算机信息处理的文字组合。优选的,所述针对分词数据集,抽取电子邮箱地址,包括以下操作步骤:S0401、检索分词数据集中的@,若有@,则进行下一步推理计算,若否,则系统不再检索;S0402、检索@左右侧的文字,是否满足正常空格的数目阈值规则库,若是,则继续推理计算,若否,系统则不予计算;S0403、系统自动将所述电子邮箱第一部分、后面的@、后面的电子邮箱第二部分和后面的电子邮箱第三部分按前后序列组合,抽取为电子邮箱地址。(三)有益效果本专利技术具备以下有益效果:本专利技术提供的从文本中抽取电子邮箱地址的方法,通过将数据中的电子邮箱名称文本分为三个部分,获得电子邮箱名称分词数据集并以@为分隔点,在进行筛选抽取时,分步检测@左右两侧的文字信息,是否符合设定的阈值,以此来判断是否进行下一步检测,与现有的技术方案相比,可以有效地减少计算机不必要的检测,提高了计算机提取文本数据时的速度,同时可以有效地剔除错误或相似的无效文本信息,进而提高了该从文本中抽取电子邮箱地址方法的精准度。附图说明图1为本专利技术方法的流程图;图2为本专利技术方法专用数据库群的示意图;图3为本专利技术方法电子邮箱名称分词数据集的示意图;图4为本专利技术方法中抽取电子邮箱地址的流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,本专利技术提供了从文本中抽取电子邮箱地址的方法,包括以下操作步骤:步骤S01,预先创建专用数据库群;步骤S02,将电子邮箱名称文本分为三部分,获得电子邮箱名称分词数据集;步骤S03,针对已获得的文本内容,进行分词,获得分词数据集;步骤S04,针对分词数据集,抽取电子邮箱地址。通过将数据中的电子邮箱名称文本分为三个部分,获得电子邮箱名称分词数据集并以@为分隔点,在进行筛选抽取文本中的电子邮箱地址,可以有效地减少计算机不必要的检测,提高了计算机提取文本数据时的速度,同时可以有效地剔除错误或相似的无效文本信息,进而提高了该从文本中抽取电子邮箱地址方法的精准度。请参阅图2,本专利技术提供了从文本中抽取电子邮箱地址的方法,在步骤S01中,包括:①创建域名后缀库,其中域名后缀库有【.com】、【.net】、【.cn】、【.com.cn】、【.top】、【.ai】等;②创建正常空格的数目阈值规则库,并且正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值,根据以下2个规则判断空格数目是否正常:规则一:如若特定电邮文本中的空格字符数量低于设定的数目阈值,默认为合法正常的空格,系统自动删除空格,规则二:如特定电邮文本中的空格字符数量高于设定的数目阈值,则默认为不合法不正常的空格,系统不予计算;③创建电子邮箱地址连接符号库,其中电子邮箱地址连接符号库有【-】、【_】、【\】、【/】、【——】等。其中,专用数据库群支持用户自定义增减数据。请参阅图3,本专利技术提供了从文本中抽取电子邮箱地址的方法,在步骤S02中,其中电子邮箱名称文本的三部分之间无任何文字和空格中,并且电子邮箱名称分词数据集的三个部分分别为:电子邮箱第一部分是指@左侧的文本,包含英文、数字、电子邮箱地址连接符号的任意不连续地组合;电子邮箱第二部分是指@与域名之间的文本,英文、数字、电子邮箱地址连接符号的任意不连续地组合;电子邮箱第三部分是指电子邮箱的域名后缀。其中,电子邮箱第一部分和电子邮箱第二部分中的英文、数字、标点符号之间无任何中文文字和空格。请参阅图4,本专利技术提供了从文本中抽取电子邮箱地址的方法,在步骤S04中,包括:步骤S0401,检索分词数据集中的@,如有,进入步骤S0402推理计算,若无,则不进行推算;步骤S0402,检索@左右侧的文字并进行判定,其检测判定的方法如下:检索@的左侧直接序列组合的文字,是否英文、数字、电子邮箱地址连接符号和空格的任意组合,如是,根据预先创建的专用数据库群中的正常空格的数目阈值规则库,检索其中的空格字符数量是否低于预先设置的正常空格的数目阈值,如低于阈值,系统自动删除空格,并将剩余部分按原有先后序列组合成电子邮箱第一部分文本,如空格字符数量高于阈值,系统不予计算;检索@的右本文档来自技高网...

【技术保护点】
1.从文本中抽取电子邮箱地址的方法,其特征在于,包括以下操作步骤:S01、预先创建专用数据库群;S02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;S03、针对已获得的文本内容进行分词,获得分词数据集;S04、针对分词数据集,抽取电子邮箱地址。

【技术特征摘要】
1.从文本中抽取电子邮箱地址的方法,其特征在于,包括以下操作步骤:S01、预先创建专用数据库群;S02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;S03、针对已获得的文本内容进行分词,获得分词数据集;S04、针对分词数据集,抽取电子邮箱地址。2.根据权利要求1所述的从文本中抽取电子邮箱地址的方法,其特征在于,所述专用数据库群,包括创建域名后缀库、创建正常空格的数目阈值规则库、创建电子邮箱地址连接符号库,所述正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值。3.根据权利要求2所述的从文本中抽取电子邮箱地址的方法,其特征在于:所述专用数据库群均支持用户自定义增减数据。4.根据权利要求1所述的从文本中抽取电子邮箱地址的方法,其特征在于:所述电子邮箱名称分词数据集包括:电子邮箱第一部分,所述电子邮箱第一部分是指@左侧的文本;电子邮箱第二部分,所述电子邮箱第二部分是指@与域名之间的文本;电子邮箱第三部分,所述电子邮箱第三部分是指电子邮箱的域名后缀...

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:陈包容
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1