当前位置: 首页 > 专利查询>陈包容专利>正文

从文本中抽取社交账号的方法技术

技术编号:21343488 阅读:71 留言:0更新日期:2019-06-13 22:27
本发明专利技术涉及文本抽取技术领域,且公开了从文本中抽取社交账号的方法,所述从文本中抽取社交账号的方法,包括以下操作步骤,第一步,预先创建专用数据库群;第二步,针对已获得的文本内容,进行分词,获得分词数据集;第三步,针对分词数据集,抽取社交账号。通过获得分词数据集,把文本整理成电子格式的面向计算机信息处理的文字组合,使得文本中的社交账号能被直接提取,无需再对文本进行编辑,通过检索分词数据集中不低于2个英文和数字和社交账号连接符号的任意组合的字符串和检索首字符和其右侧的字符的连续序列组合,提高了社交账号在抽取时的便捷性,同时能增加社交账号在提取时的精准率。

Method of extracting social accounts from text

The invention relates to the technical field of text extraction, and discloses a method of extracting social accounts from text. The method of extracting social accounts from text includes the following steps: the first step is to create a special database group beforehand; the second step is to segment words for the acquired text content to obtain a word segmentation data set; and the third step is to extract social information for the word segmentation data set. Account number. By acquiring the word segmentation data set and organizing the text into a combination of computer-oriented information processing words in electronic format, the social accounts in the text can be extracted directly without editing the text. By retrieving any combination of strings of not less than two English and digital and social account connection symbols in the word segmentation data set, and the conjunction of the first character and the right character of the text can be retrieved. Continuous sequence combination improves the convenience of social account extraction, and increases the accuracy of social account extraction.

【技术实现步骤摘要】
从文本中抽取社交账号的方法
本专利技术涉及文本提取
,具体为从文本中抽取社交账号的方法。
技术介绍
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科,文本数据挖掘处理的数据类型是文本数据,属于数据挖据的一个分支,与机器学习、自然语言处理、数理统计等学科具有紧密联系,文本挖掘在很多应用中都扮演重要角色,例如数据采集、信息抽取(例如互联网搜索)等。文本信息抽取是文本数据挖掘的一个基础技术,文本信息抽取是从文本数据中抽取特定信息的一种技术,文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合,抽取文本数据中的联系方式、邮箱地址、社交号码、短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。抽取文本数据中的社交账号,通过目前已有的技术方案实现,社交账号在抽取时,受到字符和文本的影响,导致提取的社交账户不准确,且在文本中抽取社交账户,精准率比较低,会导致提取信息出错、用户无法使用的问题。
技术实现思路
针对上述
技术介绍
的不足,本专利技术提供了从文本中抽取社交账号的方法,具备精准提取、误差小的优点,解决了
技术介绍
提出的问题。本专利技术提供如下技术方案:从文本中抽取社交账号的方法,所述从文本中抽取社交账号的方法包括以下操作步骤:第一步,预先创建专用数据库群,所述专用数据库群均支持用户自定义增减数据;第二步,针对已获得的文本内容,进行分词,获得分词数据集,所述文本为电子格式的面向计算机信息处理的文字组合;第三步,针对分词数据集,抽取社交账号。优选的,所述专用数据库群包括:社交账号名称库、社交账号名称后缀词库、社交账号连接符号库、括号符号库、正常空格的数目阈值规则库。优选的,根据所述分词数据,然后检索分词数据集中不低于2个英文和数字和社交账号连接符号的任意组合的字符串,字符之间,允许有低于正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,如有,系统自动删除所述空格和间隔符,将剩下的数字汇总成社交账号文本组合,如有高于正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,则系统自动将空格两侧的字符串切分为单独的社交账号文本组合。优选的,根据所述从社交账号文本组合的第一个字符开始,检索首字符和其右侧的字符的连续序列组合,如组合内容符合下列组合规则,则判断所述英文和数字社交账号连接符号的任意组合为社交账号名称的账号。本专利技术具备以下有益效果:该从文本中抽取社交账号的方法,通过专用数据库群的作用,使得用户可以自定义增减数据,增加社交账号在提取时的便捷性,通过获得分词数据集,把文本整理成电子格式的面向计算机信息处理的文字组合,使得文本中的社交账号能被直接提取,无需再对文本进行编辑,通过检索分词数据集中不低于2个英文和数字和社交账号连接符号的任意组合的字符串和检索首字符和其右侧的字符的连续序列组合,提高了社交账号在抽取时的便捷性,同时能增加社交账号在提取时的精准率,在提交时不会存在社交账号信息提取出错的问题。附图说明图1为本专利技术流程示意图;图2为预先创建专用数据库群流程示意图;图3为抽取分词数据集流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1-3,从文本中抽取社交账号的方法,从文本中抽取社交账号的方法包括以下操作步骤:第一步,预先创建专用数据库群,专用数据库群均支持用户自定义增减数据,专用数据库群包括:社交账号名称库,社交账号名称库包括:微信、QQ等,社交账号数据库,支持用户自定义增减数据,包括一些常用的社交软件都能从文本中抽取社交账户,且抽取的社交账户准确度较高;社交账号名称后缀词库,社交账号名称后缀词库包括:号、号码、名字、ID、昵称、账号、账户、名称、地址,数据库,支持用户自定义增减数据;社交账号连接符号库,社交账号连接符号库包括:【-】、【_】、【\】、【/】、【——】等,数据库支持用户自定义增减数据;社交账号前的标点符号库,包括:【:】、【-】、【_】、【→】等,数据库支持用户自定义增减数据;括号符号库包括:小括号符号、中括号符号、大括号符号、六角括号符号、书名号符号、竖型上下括号符号、特殊括号符号;正常空格的数目阈值规则库包括:用户自定义设定空格字符数量阈值,根据2个规则判断空格数目是否正常,规则一:如社交账号文本中的空格字符数量低于设定的数目阈值,默认为合法正常的空格,系统自动删除空格,规则二:如社交账号文本中的空格字符数量高于设定的数目阈值,则默认为不合法不正常的空格,系统不予计算。通过上述方法的操作,增加社交账户在提取时的稳定性,同时利用两个规则的作用,避免社交账号在提取时出现误差,增加社交账号在文本提取时的效率、速度和精准性,能自动识别什么是社交账号,并对社交账号进行分类处理提取;第二步,针对已获得的文本内容,进行分词,获得分词数据集,文本为电子格式的面向计算机信息处理的文字组合,通过面向计算机信息处理的文字组合,增加了社交账号在提取时的适用性,使得获得的文本能直接被处理提取,无需再对文本进行编辑处理;第三步,针对分词数据集,按照以下规则抽取其中的社交账号:检索分词数据集中不低于2个英文和数字和社交账号连接符号的任意组合的字符串,字符之间,允许有低于正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,如有,系统自动删除空格和间隔符,将剩下的数字汇总成社交账号文本组合,如有高于正常空格的数目阈值规则库中用户自定义设定空格字符数量阈值的空格,则系统自动将空格两侧的字符串切分为单独的社交账号文本组合。即使文本中存在间隔的符号和字符,系统也能从文本中准确地提取出社交账户,然后再从社交账号文本组合的第一个字符开始,检索首字符和其右侧的字符的连续序列组合,如组合内容符合下列组合规则,则判断,英文和数字社交账号连接符号的任意组合为社交账号名称的账号,规则如下:组合规则一:【社交账号名称】+【社交账号名称后缀词】+【是/为/乃/系】+【社交账号前后的标点符号】+【英文和数字和社交账号连接符号的任意组合】。组合规则二:【社交账号名称】+【社交账号名称后缀词】+【社交账号前后的标点符号】+【英文和数字和社交账号连接符号的任意组合】。组合规则三:【社交账号名称】+【是/为/乃/系】+【社交账号前后的标点符号】+【英文和数字和社交账号连接符号的任意组合】。组合规则四:【社交账号名称】+【社交账号前后的标点符号】+【英文和数字和社交账号连接符号的任意组合】。组合规则五:【社交账号名称】+【英文和数字和社交账号连接符号的任意组合】。组合规则六:括弧内的【社交账号名称】+【英文和数字和社交账号连接符号的任意组合】。组合规则七:括弧内的【社交账号名称】+【社交账号前后的标点符号】+【英文和数字和社交账号连接符号的任意组合】。组合规则八:括弧内的【社交账号名称】和【社交账号名称后缀词】+【英文本文档来自技高网...

【技术保护点】
1.从文本中抽取社交账号的方法,其特征在于:所述从文本中抽取社交账号的方法包括以下操作步骤:第一步,预先创建专用数据库群,所述专用数据库群均支持用户自定义增减数据;第二步,针对已获得的文本内容,进行分词,获得分词数据集,所述文本为电子格式的面向计算机信息处理的文字组合;第三步,针对分词数据集,抽取社交账号。

【技术特征摘要】
1.从文本中抽取社交账号的方法,其特征在于:所述从文本中抽取社交账号的方法包括以下操作步骤:第一步,预先创建专用数据库群,所述专用数据库群均支持用户自定义增减数据;第二步,针对已获得的文本内容,进行分词,获得分词数据集,所述文本为电子格式的面向计算机信息处理的文字组合;第三步,针对分词数据集,抽取社交账号。2.根据权利要求1所述的从文本中抽取社交账号的方法,其特征在于:所述专用数据库群包括:社交账号名称库、社交账号名称后缀词库、社交账号连接符号库、括号符号库、正常空格的数目阈值规则库。3.根据权利要求1所述的从文本中抽取社交账号的方法,其特征在于:根据所述分词数据集,然后检索分词数...

【专利技术属性】
技术研发人员:陈包容
申请(专利权)人:陈包容
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1