一种基于时间窗口和语义的变体词规范化的方法和系统技术方案

技术编号:16500007 阅读:41 留言:0更新日期:2017-11-04 11:19
本发明专利技术公开了一种基于时间窗口和语义的变体词规范化的方法和系统。本方法为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。本系统包括采集模块、过滤模块、获取模块和规范词获取模块。本发明专利技术使得社交网络的文本变的更加规范,便于舆情分析、热点时间追踪。

Method and system for normalization of variant words based on time window and semantics

The invention discloses a method and a system of standard time window and variants based on semantic integration. The method is as follows: 1) according to the given variable nominal time, we select the set time period of time before the data of the social network, as a candidate set of corpus D1; 2) the candidate set D1 and the nominal corpus corpus where the semantic similarity of corpus corpus added to the candidate set D2; 3) extraction the candidate words from the set D2, get a set of candidate words; 4) are computed for each candidate words and variants scored according to each candidate words and word variants of literal similarity and context similarity, according to the identified candidate word variants corresponding to the calculated results, the candidate words identified as the standard word the variant words. The system comprises an acquisition module, filtering module, acquisition module and standard word acquisition module. The invention makes the text of social network becomes more and more standardized, convenient time, hot track public opinion analysis.

【技术实现步骤摘要】
一种基于时间窗口和语义的变体词规范化的方法和系统
本专利技术涉及社交网络数据分析领域,是一种基于时间窗口和语义的变体词规范化的方法,以实现更有针对性、准确性的社交网络中变体词的规范化的方法和系统。
技术介绍
随着社交网络的飞速发展,每天有亿级的信息发布在社交网络平台中,带来了信息的爆炸式增长。信息的形式多种多样,包括文本、图片、音频、视频等。其中社交网络中的文本具有随意性、非正规性等特点。变体词就是网络语言作为一种不规范语言的显著特色,人们往往处于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变体词(Morph)。变体词和其对应的原来的词(目标实体词)会分别在非规范文本和规范文本中共存,甚至变体词会渗透到规范文本中。变体词使行文更加生动活泼,相关事件、消息也传播得更加广泛。但是因为变体词通常是某种隐喻,已不再是其表面字词的意义了,从而使网络上文体与正式文本(如新闻)具有巨大的差异。由此如何识别出这些变体词所对应的目标实体词,即规范化,对于下游的自然语言处理技术具有重要的意义。进一步,研究变体词的规范化对于舆情分析、热点事件追踪等都有重要意义。变体词的规范化变体词规范化指变体词的解析,即找到变体词所对应的目标实体词。形式化描述如下:已知文档集合D={d1,d2,…,d|D|},文档集合D中唯一词集合为T={t1,t2,…,t|T|},定义候选的变体词m′j是T中的一个唯一词tj。则定义一个候选变体词的提及(morphmention)为mj在一个特定文档dj里的第p次出现。这里需要注意如果一个提及的表面形式是与mi相同的,但是如果其指向其原来的含义,那么就不认为是变体词的提及。例如:如果词语“小马哥”通过上下文获知其指向的是香港电影《英雄本色》里的一角色,则就不是一个变体词的提及;但是如果其指向的是一公司总裁马某某,则认为是一个变体词的提及。因此变体词规范化任务是针对每一个变体词提及解析出其目标实体词e1。针对上例,则需要解析出变体词“小马哥”的目标实体词为“马某某”。最终目标是获得变体词对应的目标实体词。变体词的特点1)变体词可以看作是一种利用自然语言处理技术来传播秘密消息的一种手段。绝大多数的变体词可以看作是基于深层语义和背景知识的编码,而不是简单的字典式的替换,因此变体词更接近于行话、黑话、术语等。2)变体词与目标实体词之间的映射关系不是全射关系,也即不是标准的对应关系,多个变体词可以对应一个目标实体词,一个目标实体词也可以对应多个变体词。3)社交网络平台对变体词的产生和发展起着至关重要的推动作用。社交网络作为一种自媒体,更是激发了广大群众的创造欲望、集成了广大群众的集体智慧。众多流行的变体词都是互联网上普通用户自发创造获得广泛传播的。4)变体词随着时间的推移迅速演化。根据新的新闻热点、特殊事件,会不断地产生新的变体词,这是变体词的一大特点,也反应到了变体词的生成规律上。有些变体词会逐步消亡,而有些甚至进入了规范的文本中获得更广泛的认可。变体词规范化的研究现状明确的变体词概念出现在Huang的论文中(参考Huang,Hongzhao,etal."ResolvingEntityMorphsinCensoredData."ACL(1).2013),但是变体词相关的概念和技术一直在不良文本过滤、社交媒体文本规范化等领域有所体现。下面主要从规范化技术角度详细阐述变体词规范化的发现现状。1)基于规则的规范化方法最早与变体词相关的研究主要有网络不良文本的过滤技术,前期主要使用精确匹配、分类器等方法。但是发现变体词的出现会严重影响到过滤的准确度。因此逐步引入了对变体词的处理,如Yoon将某特殊字符转化成形状相似的字母,然后再进行检测(参考YoonT,ParkSY,ChoHG.Asmartfilteringsystemfornewlycoinedprofanitiesbyusingapproximatestringalignment[C]//ComputerandInformationTechnology(CIT),2010IEEE10thInternationalConference.IEEE,2010,643-650.)。例如:将特殊字符“!”转换成字母“i”,遇到“sh!t”词后,将这个词转换成“shit”来处理。陈儒等人提出了面向中文特定关键词变体的过滤技术(参考:陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12.),针对中文网络的5种变体方法提出了变异规则:1)对关键词进行同音字替换或拼音替换;2)对关键词进行拆分;3)在关键词中插入无意义的非汉字符合;4)关键词的组合;5)上述4种方法的组合。Sood在对不良文本及其变体信息进行检测的时候,利用了"众包"的思想,使用"众包"来对文本进行标记,采用机器学习的技术来对不良文本信息过滤,通过采用bigram、词干等作为特征值来对文本信息做分类分析,以检测不良信息(参考SoodS0,AntinJ,ChurchillEF.UsingCrowdsourcingtoImproveProfanityDetection[C]//AAAISpringSymposiumSeries.2012:69-74.)。Xia和Wong考虑中文聊天室等环境下动态非规范语言的规范化问题,以标准汉语语料库为基础建立了汉字的语音映射模型,对信源/信道模型进行扩展(eXtendedSourceChannelModel,XSCM),然后基于汉字语音之间的相似度进行替换,但需要手工确定相似度的权重(参考YunqingXia,Kam-FaiWong,andWenjieLi.2006.Aphonetic-basedapproachtochinesechattextnor-malization.InProceedingsofCOLING-ACL2006,pages993–1000.;K.F.WongandY.Xia.2008.NormalizationofChineseChatLanguage.LanguageResourcesandEvaluation,pages219–242)。2)基于统计和规则的规范化方法Wang从非规范词的规范化角度(参考AoboWang,Min-YenKan,DanielAndrade,TakashiOnishi,andKaiIshikawa.2013.Chineseinformalwordnormalization:anexperimentalstudy.InProceedingsofInternationalJointConferenceonNatu-ralLanguageProcessing(IJCNLP2013)),首先提取统计特征和基于规则的特征,通过分类实现中文非规范词的规范化。通过语音建立了汉字-汉字之间的映射关系,通过缩写建立了汉字-词的映射关系,通过意译建立了字-词,词-词的映射关系。Choudhury针对SMS文本,提出了一种基于隐马尔可夫模型的文本规范化方法(参考MChoudhury,RSaraf,VJain,et.本文档来自技高网...
一种基于时间窗口和语义的变体词规范化的方法和系统

【技术保护点】
一种基于时间窗口和语义的变体词规范化的方法,其步骤为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该候选语料库集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。

【技术特征摘要】
1.一种基于时间窗口和语义的变体词规范化的方法,其步骤为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该候选语料库集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。2.如权利要求1所述的方法,其特征在于,从该候选语料库集合D2中提取出候选词的方法为:利用分词工具、词性标注方法、名词词组检测方法、命名实体标注方法和事件提取方法分别从该候选语料库集合D2中提取出候选词;然后将提取出的候选词取并集得到所述候选词集合。3.如权利要求1所述的方法,其特征在于,基于LDA文本相似性计算方法或基于Doc2Vec的文本相似性计算方法计算所述语义相似的语料。4.如权利要求1或2或3所述的方法,其特征在于,所述步骤4)中,采用无监督的机器学习方法,利用神经网络在大规模语料库中自主学习词语的上下文语义表示计算每对候选词和变体词的得分。5.如权利要求4所述的方法,其特征在于,分别提取变体词和候选词的词向量输入无监督的机器学习方法进行训练,其中在训练词向量的时候,将一个词语拆分成两部分:词语本身和组成该词语的汉字。6.如权利要求5所述的...

【专利技术属性】
技术研发人员:沙灜施振辉李锐梁棋邱咏钦王斌
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1