【技术实现步骤摘要】
一种基于句子情感属性的文本属性生成观点摘要方法与系统
本专利技术涉及互联网大数据分析
,特别是一种基于句子情感属性的文本属性生成观点摘要方法与系统。
技术介绍
随着互联网的发展,人们从互联网上获取的消息越来越多,微博、网站新闻与商品评论等领域的数据在人们的网络生活中所占比例越来越大。为了带给人们更加高效的阅读与筛选体验,网络文本往往会提取出摘要部分供用户预览,早期这个工作由人工完成,随着数据日益庞大,人们开始采用机器自动提取的方法来生成摘要。当前,有很多技术方法可用于自动从互联网文本中生成摘要。传统的观点摘要模型包括图模型和排序模型。图模型的代表方法有Textrank、PageRank、LexRank等方法,它们利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成观点摘要,而排序模型从观点摘要的多样性、冗余性等考虑因素出发,构建句子评分函数实现对句子的评分,或利用KL散度、MMR方法对句子做一个相对的分数排序,通 ...
【技术保护点】
1.一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,包括以下步骤:/n提取网站上的待处理数据集,并对其进行预处理;/n构建话题语料集和背景语料集;/n提取话题语料集的情感属性;/n将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重;/n利用情感属性作为评价对象,将句子进行特征向量化,得到文本句子特征向量;/n根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要。/n
【技术特征摘要】
1.一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,包括以下步骤:
提取网站上的待处理数据集,并对其进行预处理;
构建话题语料集和背景语料集;
提取话题语料集的情感属性;
将情感属性作为特征添加到xgboost模型中训练,得到所有特征的重要性得分,通过重要性得分给每个特征分配权重;
利用情感属性作为评价对象,将句子进行特征向量化,得到文本句子特征向量;
根据文本句子特征向量,挑选一定数量的句子集合使得包含的情感属性得分最高,将此句子集合作为观点摘要。
2.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述待处理数据集包括但不限于微博语料集。
3.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述进行预处理具体包括以下步骤:
去除评论句子中的网页链接;
去除字符长度小于3的评论句子;
去除评论句子中的常用不相关词;
将所有英文统一成小写字母。
4.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述构建话题语料集和背景语料集具体为:针对预处理后的文本,设定当前话题文本为话题语料集,其他话题文本作为背景语料集。
5.根据权利要求1所述的一种基于句子情感属性的文本属性生成观点摘要方法,其特征在于,所述提取话题语料集的情感属性具体包括以下步骤:
步骤S11:借助对数似然比方法,计算话题语料集中的单词的对数似然比值,将对数似然比低于预设阈值的单词过滤,得到情感属性与其他单词;
步骤S12:基于情感词典,提取话题语料集中的情感属性,得到包括正面的情感属性集合与负面的情...
【专利技术属性】
技术研发人员:廖祥文,李晓滨,陈志豪,张铭洲,吴运兵,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。