从文本中抽取社交账号的方法技术

技术编号：21343488 阅读：71 留言：0更新日期：2019-06-13 22:27

本发明专利技术涉及文本抽取技术领域，且公开了从文本中抽取社交账号的方法，所述从文本中抽取社交账号的方法，包括以下操作步骤，第一步，预先创建专用数据库群；第二步，针对已获得的文本内容，进行分词，获得分词数据集；第三步，针对分词数据集，抽取社交账号。通过获得分词数据集，把文本整理成电子格式的面向计算机信息处理的文字组合，使得文本中的社交账号能被直接提取，无需再对文本进行编辑，通过检索分词数据集中不低于2个英文和数字和社交账号连接符号的任意组合的字符串和检索首字符和其右侧的字符的连续序列组合，提高了社交账号在抽取时的便捷性，同时能增加社交账号在提取时的精准率。

Method of extracting social accounts from text

The invention relates to the technical field of text extraction, and discloses a method of extracting social accounts from text. The method of extracting social accounts from text includes the following steps: the first step is to create a special database group beforehand; the second step is to segment words for the acquired text content to obtain a word segmentation data set; and the third step is to extract social information for the word segmentation data set. Account number. By acquiring the word segmentation data set and organizing the text into a combination of computer-oriented information processing words in electronic format, the social accounts in the text can be extracted directly without editing the text. By retrieving any combination of strings of not less than two English and digital and social account connection symbols in the word segmentation data set, and the conjunction of the first character and the right character of the text can be retrieved. Continuous sequence combination improves the convenience of social account extraction, and increases the accuracy of social account extraction.

全部详细技术资料下载

【技术实现步骤摘要】
从文本中抽取社交账号的方法
本专利技术涉及文本提取
，具体为从文本中抽取社交账号的方法。
技术介绍
文本数据挖掘是一种利用计算机处理技术从文本数据中抽取有价值的信息和知识的应用驱动型学科，文本数据挖掘处理的数据类型是文本数据，属于数据挖据的一个分支，与机器学习、自然语言处理、数理统计等学科具有紧密联系，文本挖掘在很多应用中都扮演重要角色，例如数据采集、信息抽取(例如互联网搜索)等。文本信息抽取是文本数据挖掘的一个基础技术，文本信息抽取是从文本数据中抽取特定信息的一种技术，文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合，抽取文本数据中的联系方式、邮箱地址、社交号码、短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。抽取文本数据中的社交账号，通过目前已有的技术方案实现，社交账号在抽取时，受到字符和文本的影响，导致提取的社交账户不准确，且在文本中抽取社交账户，精准率比较低，会导致提取信息出错、用户无法使用的问题。
技术实现思路
针对上述
技术介绍
的不足，本专利技术提供了从文本中抽取社交账号的方法，具备精准提取、误差小的优点，解决了
技术介绍
提出的问题。本专利技术提供如下技术方案：从文本中抽取社交账号的方法，所述从文本中抽取社交账号的方法包括以下操作步骤：第一步，预先创建专用数据库群，所述专用数据库群均支持用户自定义增减数据；第二步，针对已获得的文本内容，进行分词，获得分词数据集，所述文本为电子格式的面向计算机信息处理的文字...

【技术保护点】
1.从文本中抽取社交账号的方法，其特征在于：所述从文本中抽取社交账号的方法包括以下操作步骤：第一步，预先创建专用数据库群，所述专用数据库群均支持用户自定义增减数据；第二步，针对已获得的文本内容，进行分词，获得分词数据集，所述文本为电子格式的面向计算机信息处理的文字组合；第三步，针对分词数据集，抽取社交账号。

【技术特征摘要】
1.从文本中抽取社交账号的方法，其特征在于：所述从文本中抽取社交账号的方法包括以下操作步骤：第一步，预先创建专用数据库群，所述专用数据库群均支持用户自定义增减数据；第二步，针对已获得的文本内容，进行分词，获得分词数据集，所述文本为电子格式的面向计算机信息处理的文字组合；第三步，针对分词数据集，抽取社交账号。2.根据权利要求1所述的从文本中抽取社交账号的方法，其特征在于：所述专用数据库群包括：社交账号名称库、社交账号名称后缀词库、社交账号连接符号库、括号符号库、正常空格的数目阈值规则库。3.根据权利要求1所述的从文本中抽取社交账号的方法，其特征在于：根据所述分词数据集，然后检索分词数...

【专利技术属性】
技术研发人员：陈包容，
申请(专利权)人：陈包容，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人