The invention relates to the technical field of text data mining extraction, and discloses a method for extracting e-mail addresses from text, including the following steps: creating a special database group beforehand; dividing e-mail name text into three parts, and obtaining e-mail name segmentation data set, which is based on the text content obtained, and obtaining the segmentation data set for word segmentation; Data sets extract e-mail addresses. By dividing the text of e-mail name in data into three parts, and taking @ as the separating point, the text information on both sides of @ is detected step by step when filtering and extracting, and whether it meets the set threshold value, so as to judge whether the next detection is carried out, the unnecessary detection of computer can be effectively reduced, and the speed of extracting text data by computer can be improved. At the same time, the speed of extracting text data by computer can be improved. It can effectively eliminate errors or similar invalid text information, thus improving the accuracy of the method of extracting e-mail address from text.
【技术实现步骤摘要】
从文本中抽取电子邮箱地址的方法
本专利技术涉及文本数据挖掘提抽取
,具体为从文本中抽取电子邮箱地址的方法。
技术介绍
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科,其处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系,文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。而文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据中抽取特定信息的一种技术,其主要是由一些具体的单位构成的,例如句子、段落及篇章等,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合,从中抽取文本数据中的联系方式、电子邮箱地址、社交号码、短语、人名或地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。而在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验及提取文本数据时的效率,故亟需提供一种从文本数据中精准快速地提取电子邮箱地址的方法。
技术实现思路
(一)解决的技术问题本专利技术提供了从文本中抽取电子邮箱地址的方法,具备精准率高、不会出现提取的信息出错和提取数据的效率高的优点,解决了在抽取文本数据中的英文电子邮箱地址,通过目前已有的技术方案实现时,其精准率比较低,时常会导致提取信息出错、用户无法使用的问题,同时计算机系统的计算量较大,严重影响了用户的使用体验 ...
【技术保护点】
1.从文本中抽取电子邮箱地址的方法,其特征在于,包括以下操作步骤:S01、预先创建专用数据库群;S02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;S03、针对已获得的文本内容进行分词,获得分词数据集;S04、针对分词数据集,抽取电子邮箱地址。
【技术特征摘要】
1.从文本中抽取电子邮箱地址的方法,其特征在于,包括以下操作步骤:S01、预先创建专用数据库群;S02、将电子邮箱名称文本分为三部分,并获得电子邮箱名称分词数据集;S03、针对已获得的文本内容进行分词,获得分词数据集;S04、针对分词数据集,抽取电子邮箱地址。2.根据权利要求1所述的从文本中抽取电子邮箱地址的方法,其特征在于,所述专用数据库群,包括创建域名后缀库、创建正常空格的数目阈值规则库、创建电子邮箱地址连接符号库,所述正常空格的数目阈值规则库是用户自定义设定空格字符数量阈值。3.根据权利要求2所述的从文本中抽取电子邮箱地址的方法,其特征在于:所述专用数据库群均支持用户自定义增减数据。4.根据权利要求1所述的从文本中抽取电子邮箱地址的方法,其特征在于:所述电子邮箱名称分词数据集包括:电子邮箱第一部分,所述电子邮箱第一部分是指@左侧的文本;电子邮箱第二部分,所述电子邮箱第二部分是指@与域名之间的文本;电子邮箱第三部分,所述电子邮箱第三部分是指电子邮箱的域名后缀...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。