The invention discloses a method and a system of standard time window and variants based on semantic integration. The method is as follows: 1) according to the given variable nominal time, we select the set time period of time before the data of the social network, as a candidate set of corpus D1; 2) the candidate set D1 and the nominal corpus corpus where the semantic similarity of corpus corpus added to the candidate set D2; 3) extraction the candidate words from the set D2, get a set of candidate words; 4) are computed for each candidate words and variants scored according to each candidate words and word variants of literal similarity and context similarity, according to the identified candidate word variants corresponding to the calculated results, the candidate words identified as the standard word the variant words. The system comprises an acquisition module, filtering module, acquisition module and standard word acquisition module. The invention makes the text of social network becomes more and more standardized, convenient time, hot track public opinion analysis.
【技术实现步骤摘要】
一种基于时间窗口和语义的变体词规范化的方法和系统
本专利技术涉及社交网络数据分析领域,是一种基于时间窗口和语义的变体词规范化的方法,以实现更有针对性、准确性的社交网络中变体词的规范化的方法和系统。
技术介绍
随着社交网络的飞速发展,每天有亿级的信息发布在社交网络平台中,带来了信息的爆炸式增长。信息的形式多种多样,包括文本、图片、音频、视频等。其中社交网络中的文本具有随意性、非正规性等特点。变体词就是网络语言作为一种不规范语言的显著特色,人们往往处于避免审查、表达情感、讽刺、娱乐等需求将相对严肃、规范、敏感的词用相对不规范、不敏感的词来代替,用来代替原来词的新词就叫做变体词(Morph)。变体词和其对应的原来的词(目标实体词)会分别在非规范文本和规范文本中共存,甚至变体词会渗透到规范文本中。变体词使行文更加生动活泼,相关事件、消息也传播得更加广泛。但是因为变体词通常是某种隐喻,已不再是其表面字词的意义了,从而使网络上文体与正式文本(如新闻)具有巨大的差异。由此如何识别出这些变体词所对应的目标实体词,即规范化,对于下游的自然语言处理技术具有重要的意义。进一步,研究变体词的规范化对于舆情分析、热点事件追踪等都有重要意义。变体词的规范化变体词规范化指变体词的解析,即找到变体词所对应的目标实体词。形式化描述如下:已知文档集合D={d1,d2,…,d|D|},文档集合D中唯一词集合为T={t1,t2,…,t|T|},定义候选的变体词m′j是T中的一个唯一词tj。则定义一个候选变体词的提及(morphmention)为mj在一个特定文档dj里的第p次出现。这里需要注意如 ...
【技术保护点】
一种基于时间窗口和语义的变体词规范化的方法,其步骤为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该候选语料库集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。
【技术特征摘要】
1.一种基于时间窗口和语义的变体词规范化的方法,其步骤为:1)根据给定变体词的出现时间,选取社交网络中该出现时间之前的设定时间段内的语料,作为候选语料库集合D1;2)将该候选语料库集合D1中和该变体词所在语料语义相似的语料加入到候选语料库集合D2;3)从该候选语料库集合D2中提取出候选词,得到一候选词集合;4)根据每一候选词和变体词的字面相似度以及上下文特征相似度计算每对候选词和变体词的得分,根据计算结果确定该变体词对应的候选词,将确定出的候选词作为该变体词的规范词。2.如权利要求1所述的方法,其特征在于,从该候选语料库集合D2中提取出候选词的方法为:利用分词工具、词性标注方法、名词词组检测方法、命名实体标注方法和事件提取方法分别从该候选语料库集合D2中提取出候选词;然后将提取出的候选词取并集得到所述候选词集合。3.如权利要求1所述的方法,其特征在于,基于LDA文本相似性计算方法或基于Doc2Vec的文本相似性计算方法计算所述语义相似的语料。4.如权利要求1或2或3所述的方法,其特征在于,所述步骤4)中,采用无监督的机器学习方法,利用神经网络在大规模语料库中自主学习词语的上下文语义表示计算每对候选词和变体词的得分。5.如权利要求4所述的方法,其特征在于,分别提取变体词和候选词的词向量输入无监督的机器学习方法进行训练,其中在训练词向量的时候,将一个词语拆分成两部分:词语本身和组成该词语的汉字。6.如权利要求5所述的...
【专利技术属性】
技术研发人员:沙灜,施振辉,李锐,梁棋,邱咏钦,王斌,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。