一种基于用户偏好自动生成主题评价摘要的方法技术

技术编号:24456246 阅读:41 留言:0更新日期:2020-06-10 15:38
本发明专利技术公开一种基于用户偏好自动生成主题评价摘要的方法,通过采集顾客以往的评价信息,对顾客提供所感兴趣领域的评价样本文档进行分析,利用样本文档中词对的共现关系所隐含的语义联系,通过计算词对共现率建立共现词对的特征数据库;并利用该特征数据库,通过对目标文本进行特征词链的聚类和相似度的计算,提供顾客感兴趣的查询式自动摘要。该方法应用并不限于餐饮评价领域,也可用于网上购物消费、旅游等其他活动的推荐和公共及专业领域的信息检索。

A method of automatically generating topic evaluation summary based on user preference

【技术实现步骤摘要】
一种基于用户偏好自动生成主题评价摘要的方法
本专利技术涉及计算机研究领域中自然语言处理方向的自动摘要处理技术,具体地指一种基于用户偏好自动生成主题评价摘要的方法。
技术介绍
随着互联网和信息技术的不断发展,自动摘要方面的研究进入了前所未有的繁荣期。按其面向的用户不同,自动摘要可以划分为通用自动摘要(GenericSummarization)和查询式自动摘要(Query-biasedSummarization)两类。查询式自动摘要(是根据需要或者用户的兴趣提供相应的有侧重点的文摘,也称为用户聚焦文摘(User-focusedSummarization)、主题聚焦文摘(Topic-focusedSummarization)或查询聚焦文摘(Query-focusedSummarization)。相对于着重对全文主体内容整体概括的通用摘要,查询式自动摘要更多的反映了用户的个性化需求。一篇文档的通用摘要应由固定的静态的单句构成,而查询式自动摘要则是动态生成的,它并非平均抽取全文各部分,而是根据用户的兴趣有侧重的返回用户感兴趣的文摘,因此也被称为动态摘要。查询式自动摘要多用于问答系统、搜索引擎、网络爬虫、数据挖掘等信息领域。国外最早从20世纪80年代开始研究查询式自动摘要,查询式自动摘要是自动摘要的重要组成部分,由于查询式自动摘要和通用自动摘要在结果规模上的相似限制,多采用抽取相似语义句子的方法来构成相关主题的摘要。文章Dempster-shafertheoryforaquery-biasedcombinationofevidenceontheweb(作者为V.Plachouras和I.Ounis,发表于2005年InformationRetrieval,第8卷第2期)研究了运用自动摘要技术来提高网页中查询精度的方法。文章Atask-orientedstudyontheinfluencingeffectsofquery-biasedsummarisationinwebsearching(作者为R.White,J.Jose和I.Ruthven,发表于2003年InformationProcessing&Management,第39卷第5期)提出可根据查询词在网页各句出现频率和文本样式生成查询式自动摘要;文章关键词密度分布法在偏重摘要中的应用研究(作者为闫英杰,林鸿飞,杨志豪,赵晶,发表于2007年计算机工程,第33卷第6期)采用关键词密度算法来生成查询式自动摘要等。查询式自动摘要的关键步骤在于如何获取所查询的偏重主题,获取偏重的通常策略是对用户的查询进行概念语义方面的扩展。一些学者利用用户查询关键词在文章中的词频、位置来获取偏重,但这种方法只能机械的获取结果,无法满足语义上的要求。单纯依靠简单的查询词,难于准确界定用户查询的真正兴趣所在。比较理想的方式是采用通用的语义资源对用户的查询词进行扩展,就目前而言,还没有一个可适用的通用语义资源,一些学者利用现有的语义库来获取偏重,如英文的WordNet,中文的知网HowNet、同义词词林等当做语义资源库。如文章ASentenceSelectionMethodofQuery-BasedChineseMulti-DocumentSummarization(作者为X.Song,J.Huang,J.Zhou和H.Zhang,发表于2009出版的论文集:proceedingsofPACIIA2009)利用知网来计算特征词之间的相似度,并用于指导查询式自动摘要的摘要句选择。这样易受到语义库规模和更新速度的限制,难以应对互联网海量新增词汇的挑战。随着移动互联网的广泛应用,选择就餐场所时先在网络上查看别人对餐厅的评价信息,并在餐后发表自己对此次就餐的评价,已成为年轻人一种流行的生活方式。现有的餐饮评价网站如大众点评网、美团网等已采集了大量的就餐人员评价信息,这些评价信息,已成为他人选择就餐场所的评价依据。但他人在选择餐厅时,需要对众多点评信息逐一查看阅读,才能了解是否满足自己需求。有些网站要求用户提交评价时进行打分,将汇总的分值作为推荐指标,但由于广大用户个性需求、消费习惯、口味皆不相同。这一单纯的打分数值无法为用户选择适合自己的餐厅提供依据。
技术实现思路
本专利技术的目的在于克服上述现有技术的不足而提供一种基于用户偏好自动生成主题评价摘要的方法,用于用户依据评价选择餐厅、酒店、旅游等的实际应用场景。实现本专利技术目的采用的技术方案是:一种基于用户偏好自动生成主题评价摘要的方法,包括如下步骤:步骤101,采集用户以往基于特定场景在网上发表的评价文本作为样本文档;步骤102,对样本文档进行预处理;步骤103,从预处理后的样本文档中计算词对共现率;步骤104,将所述词对共现率存入特征数据库;步骤105,当缺少用户以往的评价文本时,或用户有其他偏好需求时,由用户手工输入多个特征关键词,将关键词作为两两关联的共现词对,存入特征数据库;步骤106,采集符合用户挑选范围内上述特定场景内所对应的其他用户的评价文本,分别汇总生成目标文档;步骤107,对所述目标文档进行预处理;步骤108,提取所述目标文档的特征词集,从所述特征数据库中查找所述特征词集中各词汇的距离,生成特征词链;步骤109,从所述目标文档中划分出单句;步骤110,计算所述目标文档中各单句所含特征词与所述特征词链的相似度,根据单句和各特征词链的相似度关系,依次选取各特征词链相似度最高的单句生成摘要。优选的,所述步骤103,1篇样本文档d中的词对共现率的具体计算方法是:所述样本文档d中任意两个词汇wi和wj的词对共现率Pd(wi,wj)通过下式计算:式中,T为所述样本文档d中的窗口单元集合;W为所述样本文档d中的词汇集合W={w1,w2,…,wn},wi和wj为词汇集合W中的任意两个词汇,i、j、n均为正整数;Sd(wi)表示所述样本文档d中包含wi的窗口单元数;Sd(wj)表示所述样本文档d中包含wj的窗口单元数;Sd(wi,wj)表示所述样本文档d中同时包含wi和wj的窗口单元数;Nt(wi,wj)表示在某窗口单元t中wi和wj共现的次数,t∈T,其中当wi和wj在同一段落中出现的次数不同时,取以wi和wj的最小出现的次数为共现次数。优选的,所述步骤103中,k篇样本文档{d1,d2,…,dk}中的词对总共现率的具体计算方法是:式中,k为大于1的正整数;Pk-1(wi,wj)为前k-1篇样本文档{d1,d2,…,dk-1}中的词汇wi和wj的词对总共现率;Sk-1(wi,wj)为前k-1篇样本文档{d1,d2,…,dk-1}中词对wi和wj共现的总窗口单元数,为第k篇样本文档dk中的词汇wi和wj的词对共现率;表示第k篇样本文档dk中同时包含wi和wj的窗口单元数;D为样本文档空间{d1,d2,…,dk}。优选的,所述特征数据库由特征词和共现词对组成。优选的,所述从所述特征数据库本文档来自技高网
...

【技术保护点】
1.一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:包括如下步骤:/n步骤101,采集用户以往基于特定场景在网上发表的评价文本作为样本文档;/n步骤102,对样本文档进行预处理;/n步骤103,从预处理后的样本文档中计算词对共现率;/n步骤104,将所述词对共现率存入特征数据库;/n步骤105,当缺少用户以往的评价文本时,或用户有其他偏好需求时,由用户手工输入多个特征关键词,将关键词作为两两关联的共现词对,存入特征数据库;/n步骤106,采集符合用户挑选范围内上述特定场景内所对应的其他用户的评价文本,分别汇总生成目标文档;/n步骤107,对所述目标文档进行预处理;/n步骤108,提取所述目标文档的特征词集,从所述特征数据库中查找所述特征词集中各词汇的距离,生成特征词链;/n步骤109,从所述目标文档中划分出单句;/n步骤110,计算所述目标文档中各单句所含特征词与所述特征词链的相似度,根据单句和各特征词链的相似度关系,依次选取各特征词链相似度最高的单句生成摘要。/n

【技术特征摘要】
1.一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:包括如下步骤:
步骤101,采集用户以往基于特定场景在网上发表的评价文本作为样本文档;
步骤102,对样本文档进行预处理;
步骤103,从预处理后的样本文档中计算词对共现率;
步骤104,将所述词对共现率存入特征数据库;
步骤105,当缺少用户以往的评价文本时,或用户有其他偏好需求时,由用户手工输入多个特征关键词,将关键词作为两两关联的共现词对,存入特征数据库;
步骤106,采集符合用户挑选范围内上述特定场景内所对应的其他用户的评价文本,分别汇总生成目标文档;
步骤107,对所述目标文档进行预处理;
步骤108,提取所述目标文档的特征词集,从所述特征数据库中查找所述特征词集中各词汇的距离,生成特征词链;
步骤109,从所述目标文档中划分出单句;
步骤110,计算所述目标文档中各单句所含特征词与所述特征词链的相似度,根据单句和各特征词链的相似度关系,依次选取各特征词链相似度最高的单句生成摘要。


2.根据权利要求1所述一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:所述步骤103,1篇样本文档d中的词对共现率的具体计算方法是:
所述样本文档d中任意两个词汇wi和wj的词对共现率Pd(wi,wj)通过下式计算:



式中,T为所述样本文档d中的窗口单元集合;W为所述样本文档d中的词汇集合W={w1,w2,…,wn},wi和wj为词汇集合W中的任意两个词汇,i、j、n均为正整数;Sd(wi)表示所述样本文档d中包含wi的窗口单元数;Sd(wj)表示所述样本文档d中包含wj的窗口单元数;Sd(wi,wj)表示所述样本文档d中同时包含wi和wj的窗口单元数;Nt(wi,wj)表示在某窗口单元t中wi和wj共现的次数,t∈T,其中当wi和wj在同一段落中出现的次数不同时,取以wi和wj的最小出现的次数为共现次数。


3.根据权利要求2所述一种基于用户偏好自动生成主题评价摘要的方法,其特征在于:所述步骤103中,k篇样本文档{d1,d2,…,dk}中的词对总共现率的具体计算方法是:



式中,k为大于1的正整数;Pk-1(wi,wj)为前k-1篇样本文档{d1,d2,…,dk-1}中的词汇wi和wj的词对总共现率;Sk-1(wi,wj)为前k...

【专利技术属性】
技术研发人员:何为刘楠马文鹏李银
申请(专利权)人:信阳师范学院
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1