一种英文社交媒体短文本分词方法技术

技术编号:14579825 阅读:368 留言:0更新日期:2017-02-08 10:08
本发明专利技术公开了一种英文社交媒体短文本分词方法,包括预处理、识别特殊字符、去边界字符、情态动词缩写形式识别以及多联词识别五个步骤。本发明专利技术使用基于正则表达式匹配和词频统计方法,提出了较为完备的英文社交媒体短文本中特殊字符以及多联词的识别方案,对文本词频向量构建、文本的分类和聚类效果、后续的词性标注、命名实体识别都能够起到较大的改进作用,实现了对英文社交媒体短文本分词,并取得了较好效果。

【技术实现步骤摘要】

本专利技术属于自然语言处理
,具体涉及一种英文社交媒体短文本分词方法的设计。
技术介绍
伴随着信息时代的到来,全球互联网和通讯事业发生了翻天覆地的变化,导致以电子形式存储和处理的数据爆炸性增长,存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据,如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为各阶层普遍接受的信息沟通渠道和情感交流手段,深刻改变了人们的沟通方式和生活习惯。短文本数据量异常庞大,数据中包含人们对社会各种现象的种种观点和立场,话题涉及政治、经济、军事、娱乐、生活等各个领域,因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。短文本伴随着Web2.0的兴起而逐步引起研究者的注意,目前短文本自然语言处理的研究方兴未艾。当前对英文自然语言处理主要方法的粒度是单词,而通过数据挖掘技术从社交媒体上获取的文本大多是完整的句子。所以分词既是自然语言处理的第一步,也会对后续的词性标注和命名实体识别产生巨大的影响。因此在寻找合适的分词算法前,有必要厘清词性标注和命名实体识别的意义和方法。词性标注(Part-of-Speechtagging或POStagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词性标注是自然语言处理的重要内容之一,是其他信息处理技术的基础,被广泛的运用于机器翻译、文字识别、语音识别、信息检索等领域。基于规则的方法是最早提出的词性标注方法,通过手工编制复杂的语法或语义信息的词典和规则系统。这种方法不仅费时费力,而且带有很大的主观性,难以保证规则的一致性。更大的问题是处理歧义长句、生词、不规范句子的能力非常脆弱,标注的准确率不高。基于统计的方法是目前应用最广的词性标注方法,使用二元语法模型和动态规划的方法进行词性识别,得到了广泛的应用并取得了很好的效果。当前大部分的词性系统采用基于二元语法模型或三元语法模型的隐马尔科夫模型,通过EM训练方法给每个词和词性标签对分配一个联合概率,通过维特比解码的动态规划方法来获取一个句子对应的最佳词性标注序列。命名实体识别(NamedEntityRecognition)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。命名实体识别是信息检索、查询分类、自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。命名实体识别的问题通常被抽象为序列标注(Sequencelabeling)问题。所谓序列标注是指对序列中每个符号赋予一个特定的标签。例如:BarackH.Obamaisthe44thPresidentoftheUnitedStates,其中BarackH.Obama是人名,UnitedStates是国家名。对每个词给出一个特定的标签来表明是某个特定类型的开始,结束和中间词等。容易观察到每个词的标记依赖附近的词,所以最简单的方法是采用分类的方法,使用若干特征,例如附近词语的信息来为每个词语进行单独分类。这里周围词语的标记也是一个很好的特征,但是在顺序扫描的过程中,后面的标签还没有计算出来,所以不能有效利用。此外该方法难以传递不确定性,改进的方法是基于概率的方法,其中最有代表性的算法是隐马尔可夫模型(HMM),该模型对于给定一个观察的词序列,产生该观察序列概率最高的标签序列。不同于传统文本的自然语言处理,社交媒体短文本具有其独特的语言特征:单条短文本一般长度都非常短,样本特征非常稀疏,很难准确地抽取有效的语言特征;短文本实时性特别强,数量异常庞大,对短文本语言计算提出了比常规文本语言计算更高的效率要求;短文本表达简洁,错误拼写、不规范用语和噪音比较多,给文本分词和后续处理带来了更大挑战。现有针对英文社交媒体短文本的分词技术存在一些问题,首先现有的分词方法有一定的单一性和局限性。现有方法对文本中出现的特殊字符串情况考虑不足,不能完全准确识别出文本中出现的URL链接、用户名、HASHTAG等情况。同时,目前没有一种方法能够对文本中出现的专有名词和多联词进行准确的识别。
技术实现思路
本专利技术的目的是为了解决现有技术中对英文社交媒体短文本的分词技术对文本中出现的特殊字符串情况考虑不足,同时无法对文本中出现的专有名词和多联词进行准确识别的问题,提出了一种英文社交媒体短文本分词方法。本专利技术的技术方案为:一种英文社交媒体短文本分词方法,包括以下步骤:S1、预处理:将文本中的所有字符转为UNICODE编码;S2、识别特殊字符:将文本中出现的非常规字符串识别并提取出来;S3、去边界字符:对常规字符串的两边出现边界符号的情况进行分拆;S4、情态动词缩写形式识别:提取文本中情态动词的缩写形式和否定缩写形式;S5、多联词识别:识别文本中的多联词,并将多联词拼接为一个单词。进一步地,步骤S1具体为:根据公式(1)(2)对文本中全角字符的编码进行替换:Diff=0xFF00-0X0020(1)full=full-Diff(2)式中full是全角字符的编码,Diff是全角字符和半角字符的编码差。进一步地,步骤S2具体为:采用基于正则表达式匹配的方法识别以下十一种特殊字符串:URL:文本中出现的网页链接;EmbeddedApostrophe:文本中带有撇号“'”的字符串;ArbitraryAbbrev:文本中带“.”的首字母大写单词缩写形式;Timelike:时间数字字符串;NumNum:小数数字字符串;Percentage:百分数数字字符串;NumberWithCommas:价格数字字符串;Specialchar:文本中半角字符以外的其他字符;Entity:推文中出现的HTML语句中的转义字符;UserName:文本中出现的用户名字符串;Punct:文本中的标点符号;将以上十一种特殊字符串进行识别并提取后,按照[...正常字符串,特殊字符串,正常字符串,特殊字符串...]的数据结构进行组合,对特殊文本进行保留,对普通文本按照空格符分词,返回初步分词结果。进一步地,步骤S5包括以下分步骤:S51、判断文本中首字母是大写的单词所占比例是否大于70%,若是则对文本中连续首字母大写的单词进行拼接,并将拼接后的结果存入多联词列表,更新该多联词的词频,否则对文本进行多联词识别;S52、检查在多联词列表中是否存在该词的短词形式,如果存在,判断长词词频是否小于短词词频的10%,若是则认为该长词是一个错误形式,将长词拆分为短词和其余部分,并更新长词和短词的词频,否则认为这个长词是一个正确形式,不作拆分,并更新长词和短词的词频;S53、根据多联词列表,对文本中的所有单词进行多联词识别,识别出小写形式的多联词;对小写形式的多联词,如果在多联词列表中可以同时找到长词形式和短词形式,则选取最长的形式作为多联词,并更新最长形式的词频。本专利技术的有益效果是:(1)本专利技术提出了较为完备的社交媒体短文本中特殊字符的识别方案,能够成功识别文本中具有特殊意义的字符串,将其与正常字符串区分开本文档来自技高网
...

【技术保护点】
一种英文社交媒体短文本分词方法,其特征在于,包括以下步骤:S1、预处理:将文本中的所有字符转为UNICODE编码;S2、识别特殊字符:将文本中出现的非常规字符串识别并提取出来;S3、去边界字符:对常规字符串的两边出现边界符号的情况进行分拆;S4、情态动词缩写形式识别:提取文本中情态动词的缩写形式和否定缩写形式;S5、多联词识别:识别文本中的多联词,并将多联词拼接为一个单词。

【技术特征摘要】
1.一种英文社交媒体短文本分词方法,其特征在于,包括以下步骤:S1、预处理:将文本中的所有字符转为UNICODE编码;S2、识别特殊字符:将文本中出现的非常规字符串识别并提取出来;S3、去边界字符:对常规字符串的两边出现边界符号的情况进行分拆;S4、情态动词缩写形式识别:提取文本中情态动词的缩写形式和否定缩写形式;S5、多联词识别:识别文本中的多联词,并将多联词拼接为一个单词。2.根据权利要求1所述的英文社交媒体短文本分词方法,其特征在于,所述步骤S1具体为:根据公式(1)(2)对文本中全角字符的编码进行替换:Diff=0xFF00-0X0020(1)full=full-Diff(2)式中full是全角字符的编码,Diff是全角字符和半角字符的编码差。3.根据权利要求1所述的英文社交媒体短文本分词方法,其特征在于,所述步骤S2具体为:采用基于正则表达式匹配的方法识别以下十一种特殊字符串:URL:文本中出现的网页链接;EmbeddedApostrophe:文本中带有撇号“'”的字符串;ArbitraryAbbrev:文本中带“.”的首字母大写单词缩写形式;Timelike:时间数字字符串;NumNum:小数数字字符串;Percentage:百分数数字字符串;NumberWithCommas:价...

【专利技术属性】
技术研发人员:费高雷陈坦胡光岷许舟军焦程波
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1