一种英文社交媒体短文本分词方法技术

技术编号：14579825 阅读：368 留言：0更新日期：2017-02-08 10:08

本发明专利技术公开了一种英文社交媒体短文本分词方法，包括预处理、识别特殊字符、去边界字符、情态动词缩写形式识别以及多联词识别五个步骤。本发明专利技术使用基于正则表达式匹配和词频统计方法，提出了较为完备的英文社交媒体短文本中特殊字符以及多联词的识别方案，对文本词频向量构建、文本的分类和聚类效果、后续的词性标注、命名实体识别都能够起到较大的改进作用，实现了对英文社交媒体短文本分词，并取得了较好效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理
，具体涉及一种英文社交媒体短文本分词方法的设计。
技术介绍
伴随着信息时代的到来，全球互联网和通讯事业发生了翻天覆地的变化，导致以电子形式存储和处理的数据爆炸性增长，存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据，如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为各阶层普遍接受的信息沟通渠道和情感交流手段，深刻改变了人们的沟通方式和生活习惯。短文本数据量异常庞大，数据中包含人们对社会各种现象的种种观点和立场，话题涉及政治、经济、军事、娱乐、生活等各个领域，因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。短文本伴随着Web2.0的兴起而逐步引起研究者的注意，目前短文本自然语言处理的研究方兴未艾。当前对英文自然语言处理主要方法的粒度是单词，而通过数据挖掘技术从社交媒体上获取的文本大多是完整的句子。所以分词既是自然语言处理的第一步，也会对后续的词性标注和命名实体识别产生巨大的影响。因此在寻找合适的分词算法前，有必要厘清词性标注和命名实体识别的意义和方法。词性标注(Part-of-Speechtagging或POStagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。词性标注是自然语言处理的重要内容之一，是其他信息处理技术的基础，被广泛的运用于机器翻译、文字识别、语音识...

【技术保护点】
一种英文社交媒体短文本分词方法，其特征在于，包括以下步骤：S1、预处理：将文本中的所有字符转为UNICODE编码；S2、识别特殊字符：将文本中出现的非常规字符串识别并提取出来；S3、去边界字符：对常规字符串的两边出现边界符号的情况进行分拆；S4、情态动词缩写形式识别：提取文本中情态动词的缩写形式和否定缩写形式；S5、多联词识别：识别文本中的多联词，并将多联词拼接为一个单词。

【技术特征摘要】
1.一种英文社交媒体短文本分词方法，其特征在于，包括以下步骤：S1、预处理：将文本中的所有字符转为UNICODE编码；S2、识别特殊字符：将文本中出现的非常规字符串识别并提取出来；S3、去边界字符：对常规字符串的两边出现边界符号的情况进行分拆；S4、情态动词缩写形式识别：提取文本中情态动词的缩写形式和否定缩写形式；S5、多联词识别：识别文本中的多联词，并将多联词拼接为一个单词。2.根据权利要求1所述的英文社交媒体短文本分词方法，其特征在于，所述步骤S1具体为：根据公式(1)(2)对文本中全角字符的编码进行替换：Diff＝0xFF00-0X0020(1)full＝full-Diff(2)式中full是全角字符的编码，Diff是全角字符和半角字符的编码差。3.根据权利要求1所述的英文社交媒体短文本分词方法，其特征在于，所述步骤S2具体为：采用基于正则表达式匹配的方法识别以下十一种特殊字符串：URL：文本中出现的网页链接；EmbeddedApostrophe：文本中带有撇号“'”的字符串；ArbitraryAbbrev：文本中带“.”的首字母大写单词缩写形式；Timelike：时间数字字符串；NumNum：小数数字字符串；Percentage：百分数数字字符串；NumberWithCommas：价...

【专利技术属性】
技术研发人员：费高雷，陈坦，胡光岷，许舟军，焦程波，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人