The invention relates to a method and system for judging a topic feature extraction method and system, polarity, theme feature extraction methods including text data access to social network reviews; text data preprocessing; for word segmentation, stop word removal control stoplist word; each of the short text in the scope of their respective short text in the free combination of words, and the word vector expressed as the form of a given number of parameters as the theme; characteristics of words need to be extracted in the short text; according to the prior knowledge of super sampling initialization parameters; theme feature words by Gibbs. The method of emotion polarity judgment includes using Gibbs sampling to obtain the polynomial distribution of affective polarity, and combining emotion dictionary to determine the polarity of emotion. Through the above method and system, it can effectively improve the accuracy of the extraction of subject feature words and the accuracy of emotional polarity judgment in short texts.
【技术实现步骤摘要】
主题特征词抽取方法及系统、情感极性判断方法及系统
本专利技术属于互联网信息处理领域,涉及社交网络文本信息处理与文本情感极性判断
,特别涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统。
技术介绍
20世纪末,互联网产品模式主要是以网站雇员主导生成内容的形式。而现如今,互联网的内容是由用户为主导产生的,每个用户已不仅仅是互联网的接收者,同时也是互联网内容的制造者。因此,为了区别于以往的互联网模式,提出了web2.0的概念。随着新闻评论、微博、博客、BBS等社交网络的快速发展,web2.0时代下的互联网上用户原创内容(UserGeneratedContent,简称UGC)呈指数级的爆炸式增长。另一方面,随着移动端的普及,受到屏幕输入限制以及用户本身书写习惯等原因,用户在社交网络上发布的内容越来越精炼,各种形式的短文本(即文本长度较短的文本数据)更易产生。目前,短文本数据量与日俱增,对短文本的内容挖掘可在话题跟踪与发现、情感极性判断、舆情监测与预警等领域有着广泛的应用前景。然而,短文本信息的处理方法与传统意义上的文本(即文本长度较长的文本数据,简称长文本) ...
【技术保护点】
一种主题特征词抽取方法,其特征在于,包括以下步骤:获取社交网络评论的文本数据;对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;给定参数T作为短文本中需要抽取出的主题特征词的数量;根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;利用吉布斯采样得到主题的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次 ...
【技术特征摘要】
1.一种主题特征词抽取方法,其特征在于,包括以下步骤:获取社交网络评论的文本数据;对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;给定参数T作为短文本中需要抽取出的主题特征词的数量;根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;利用吉布斯采样得到主题的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;针对主题的多项式分布,将所述主题按照出现频次进行排列,并根据排列结果抽取主题特征词。2.根据权利要求1所述的主题特征词抽取方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。3.根据权利要求1所述的主题特征词抽取方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。4.根据权利要求1所述的主题特征词抽取方法,其特征在于,所述吉布斯采样的过程还包括:利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;通过对词对求积分得到词对的概率分布:其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;通过对情感极性π求积分得到情感极性的概率分布:其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;通过对主题θ求积分得到主题的概率分布:其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;结合伽玛函数,得到简化的联合概率分布:其中,-p为当前短文本中除去p位置的所有词对,为短文本d中除去p位置的确定主题j的词对数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词的数量,为当前短文本中除去p位置的指派为主题j和情感极性k的词对数量,为短文本d中除去p位置的词对数量,为当前短文本中除去p位置的指派为主题j的词对数量;利用贝叶斯公式、狄利克雷共轭性质以及简化的联合概率分布得到:其中,θd,j为短文本d中与主题j所对应的主题分布,为主题j与情感极性k所对应的词对分布,πj,k为主题j与情感极性k的情感极性分布;通过迭代求得后验参数Θ、Φ和Π。5.一种情感极性判断方法,其特征在于,包括以下步骤:获取社交网络评论的文本数据;对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;给定参数T作为短文本中需要抽取出的主题特征词的数量;根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;利用吉布斯采样得到情感极性的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;将得到的情感极性的多项式分布与情感字典比较,得到情感极性词;将所述情感极性词按照出现频次进行排列,并根据排列结果进行情感极性的判断。6.根据权利要求5所述的情感极性判断方法,其特征在于,所述预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。7.根据权利要求5所述的情感极性判断方法,其特征在于,所述预处理的过程还包括以...
【专利技术属性】
技术研发人员:刘东升,王黎明,陈毓蔚,
申请(专利权)人:浙江工商大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。