【技术实现步骤摘要】
一种基于用户偏好自动生成主题评价摘要的方法
本专利技术涉及计算机研究领域中自然语言处理方向的自动摘要处理技术,具体地指一种基于用户偏好自动生成主题评价摘要的方法。
技术介绍
随着互联网和信息技术的不断发展,自动摘要方面的研究进入了前所未有的繁荣期。按其面向的用户不同,自动摘要可以划分为通用自动摘要(GenericSummarization)和查询式自动摘要(Query-biasedSummarization)两类。查询式自动摘要(是根据需要或者用户的兴趣提供相应的有侧重点的文摘,也称为用户聚焦文摘(User-focusedSummarization)、主题聚焦文摘(Topic-focusedSummarization)或查询聚焦文摘(Query-focusedSummarization)。相对于着重对全文主体内容整体概括的通用摘要,查询式自动摘要更多的反映了用户的个性化需求。一篇文档的通用摘要应由固定的静态的单句构成,而查询式自动摘要则是动态生成的,它并非平均抽取全文各部分,而是根据用户的兴趣有侧重的返回用户感兴趣的文摘,因此也被称为动态摘要。查询式自动摘要多用于问答系统、搜索引擎、网络爬虫、数据挖掘等信息领域。国外最早从20世纪80年代开始研究查询式自动摘要,查询式自动摘要是自动摘要的重要组成部分,由于查询式自动摘要和通用自动摘要在结果规模上的相似限制,多采用抽取相似语义句子的方法来构成相关主题的摘要。文章Dempster-shafertheoryforaquery-biasedcombinationofe ...
【技术保护点】
1.一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:包括如下步骤:/n步骤101,采集用户以往基于特定场景在网上发表的评价文本作为样本文档;/n步骤102,对样本文档进行预处理;/n步骤103,从预处理后的样本文档中计算词对共现率;/n步骤104,将所述词对共现率存入特征数据库;/n步骤105,当缺少用户以往的评价文本时,或用户有其他偏好需求时,由用户手工输入多个特征关键词,将关键词作为两两关联的共现词对,存入特征数据库;/n步骤106,采集符合用户挑选范围内上述特定场景内所对应的其他用户的评价文本,分别汇总生成目标文档;/n步骤107,对所述目标文档进行预处理;/n步骤108,提取所述目标文档的特征词集,从所述特征数据库中查找所述特征词集中各词汇的距离,生成特征词链;/n步骤109,从所述目标文档中划分出单句;/n步骤110,计算所述目标文档中各单句所含特征词与所述特征词链的相似度,根据单句和各特征词链的相似度关系,依次选取各特征词链相似度最高的单句生成摘要。/n
【技术特征摘要】
1.一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:包括如下步骤:
步骤101,采集用户以往基于特定场景在网上发表的评价文本作为样本文档;
步骤102,对样本文档进行预处理;
步骤103,从预处理后的样本文档中计算词对共现率;
步骤104,将所述词对共现率存入特征数据库;
步骤105,当缺少用户以往的评价文本时,或用户有其他偏好需求时,由用户手工输入多个特征关键词,将关键词作为两两关联的共现词对,存入特征数据库;
步骤106,采集符合用户挑选范围内上述特定场景内所对应的其他用户的评价文本,分别汇总生成目标文档;
步骤107,对所述目标文档进行预处理;
步骤108,提取所述目标文档的特征词集,从所述特征数据库中查找所述特征词集中各词汇的距离,生成特征词链;
步骤109,从所述目标文档中划分出单句;
步骤110,计算所述目标文档中各单句所含特征词与所述特征词链的相似度,根据单句和各特征词链的相似度关系,依次选取各特征词链相似度最高的单句生成摘要。
2.根据权利要求1所述一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:所述步骤103,1篇样本文档d中的词对共现率的具体计算方法是:
所述样本文档d中任意两个词汇wi和wj的词对共现率Pd(wi,wj)通过下式计算:
式中,T为所述样本文档d中的窗口单元集合;W为所述样本文档d中的词汇集合W={w1,w2,…,wn},wi和wj为词汇集合W中的任意两个词汇,i、j、n均为正整数;Sd(wi)表示所述样本文档d中包含wi的窗口单元数;Sd(wj)表示所述样本文档d中包含wj的窗口单元数;Sd(wi,wj)表示所述样本文档d中同时包含wi和wj的窗口单元数;Nt(wi,wj)表示在某窗口单元t中wi和wj共现的次数,t∈T,其中当wi和wj在同一段落中出现的次数不同时,取以wi和wj的最小出现的次数为共现次数。
3.根据权利要求2所述一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:所述步骤103中,k篇样本文档{d1,d2,…,dk}中的词对总共现率的具体计算方法是:
式中,k为大于1的正整数;Pk-1(wi,wj)为前k-1篇样本文档{d1,d2,…,dk-1}中的词汇wi和wj的词对总共现率;Sk-1(wi,wj)为前k...
【专利技术属性】
技术研发人员:何为,刘楠,马文鹏,李银,
申请(专利权)人:信阳师范学院,
类型:发明
国别省市:河南;41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。