基于主题与语义的对话语料关键词抽取方法技术

技术编号:19056880 阅读:179 留言:0更新日期:2018-09-29 12:11
本发明专利技术涉及一种基于主题与语义的对话语料关键词抽取方法,属于自然语言处理技术领域。本发明专利技术将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称KSel方法;利用TF‑IDF方法通过计算词频、逆向文件频率抽取关键词;将TF‑IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词。本发明专利技术有效的解决传统算法忽略语义和主题的问题,同时兼顾词语频率。

【技术实现步骤摘要】
基于主题与语义的对话语料关键词抽取方法
本专利技术涉及基于主题与语义的对话语料关键词抽取方法,属于自然语言处理

技术介绍
关键词有助于提高文本分类、信息检索等自然语言处理任务的性能。因此国内外出现了不少自动关键词抽取或生成的研究。近年来,随着即时聊天、网购咨询、自动问答系统等社交网络的迅猛发展,积累了大量的对话特性文档,对话记录隐含了人们聊天的情景和目的,反映了对话者的兴趣。从对话中抽取关键词可以用来总结、组织、检索对话内容,也可被用于用户个人服务、广告推荐等。相较于传统长文本,这类数据具有对话性、短文本、结构松散等特点,导致关键词难以遴选。传统关键词抽取主要集中在网页检索,科技文献和文本文档等领域,方法主要分为有监督方法和无监督方法。有监督方法采用人工标注的关键词文档训练分类器得到关键词。无监督方法主要计算词的显著性权值,然后排序推荐。但是针对对话语料的关键词抽取的研究较少,由于对话文本对话性、短文本、结构松散等特点,采用传统的关键词抽取方法是否有效值得怀疑。目前根据国内外针对对话语料的关键词抽取技术的研究可以得出,简单的基于TF-IDF的关键词抽取方法优于基于图的方法,而且词性的过滤和句子重要性得分有助于关键词抽取,但是基于共现词的聚类方法不会拾取词的语义相似性。利用最大熵分类器决定某个一元词是否为关键词,虽然同时考虑了二元词的扩展,但是需要标注关键词训练分类器而对话语料中标注好关键词的文档很匮乏。对此,本专利技术所提方法聚焦语义和主题信息,结合词语义聚类,词性权重,句子主题相关性等多权重来抽取关键词,提出一种基于主题与语义的对话语料关键词抽取方法,简称KSeL方法。最后,TF-IDF方法和KSel得到的关键词做为节点,基于语义建立图,通过图迭代得到最终的关键词,简称为GKSeL方法。
技术实现思路
本专利技术提供了基于主题与语义的对话语料关键词抽取方法,以用于解决对话语料关键词抽取传统算法忽略语义和主题导致关键词抽取准确性不高、有效性差的问题。本专利技术的技术方案是:基于主题与语义的对话语料关键词抽取方法,所述方法的具体步骤如下:Step1、首先爬取中文语料和访谈节目的对话语料,其次对对话语料和中文语料进行预处理;Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称KSel方法;Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词;Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词,简称GKSel方法。进一步的,所述步骤Step1的具体步骤为:Step1.1、首先人工编写爬虫程序,爬取中文语料和访谈节目中的对话语料;Step1.2、把已爬取的对话语料,经过过滤、去重得到不重复的对话语料,并把对话语料和中文语料存放到数据库中;本专利技术考虑到爬取的对话语料可能存在重复,这些重复语料增加了工作量,而没有太大意义,所以需要过滤、去重,得到不重复的对话语料,存放在数据库是为了能方便数据的管理和使用。Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作,得到干净的语料。本专利技术考虑到直接将文本切分为多个字符组成的字符串形式,会造成原文本中字、词、段落之间语言学信息的丢失。所以对对话语料进行预处理工作,其中包括中文分词、去停用词。方便后续工作的进行。所述步骤Step2的具体步骤为:Step2.1、对对话语料和中文语料使用word2vec进行词向量训练,得到词的向量表示,即词向量;考虑到对话预料中特征词数较多,并且其中存在大量同义词,上下文依赖严重,为了避免出现特征词冗余的问题,专利技术首先使用word2vec对文本进行处理,借助word2vec在语义信息表征的优越性把文本中每个词转化为向量表示。Step2.2、对对话语料和中文语料进行LDA建模训练,得到对话语料的主题模型。所述步骤Step3的具体步骤为:Step3.1、考虑词与文本中所有句子的相似,得到词的全局相似值作为词语义权重;如果一个词的语义与对话语句的语义越相似,则该词越能够代表该句子表示的语义信息,基于词的语义信息计算词的的局部权重和全局权重。由此,方法考虑词语与文本中所有句子的相似,得到词的全局相似值作为词的语义权重。Step3.2、根据词的语义相似度进行聚类,根据聚类中词的个数占文本总词数作为该类词语义聚类权重;对话过程中可能会反复提到某个词来强调意图,同时,会话可能用不同的词代表相似的意思,对话所含词语中,如果某几个或多个词语相似,至少说明文本中涉及该类信息。所以本文方法根据词的语义相似度进行聚类,根据得到的类中词语的个数占文本总词数作为该类词的语义聚类权重。Step3.3、考虑词性的权重,定义不同词性的权重值;实验表明通过词性过滤只保留动词、名词、形容词作为候选词对关键词抽取有帮助,所以方法考虑词性的权重。Step3.4、综合考虑词语义权重、词语义聚类权重、词性权重,最终得到词权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词。所述所述步骤Step4的具体步骤为:Step4.1、利用TF-IDF方法计算预处理后得到的对话语料中每个词的词频;Step4.2、利用TF-IDF方法计算预处理后得到的对话语料中每个词的逆向文件频率;Step4.3、利用Step4.1和Step4.2获得的词频和逆向文件频率抽取出关键词。所述步骤Step5的具体步骤为:Step5.1、将利用步骤Step3中抽取出的对话语料中的关键词和步骤Step4抽取出的关键词综合得到混合的关键词;Step5.2、以Step5.1中得到的混合关键词作为节点,词间的语义相似度作为边构建图,然后通过迭代计算,得到基于图的词的权重得分,根据基于图的词的权重得分选出关键词。基于图的图中边权重主要考虑的TF-IDF。但是,因为人们对关键词理解有不同的认知,基于语义的关键词概括性可能不如基于频率抽取的关键词,反之依然。所以,考虑将两种方法的抽取的关键词混合,然后基于图的迭代计算词的权重,最后基于图的词的权重得分选出得分最高的N个词,N可以取10,期望能综合利用到词的语义和频率信息。为了比较算法的性能,使用TF-IDF和基于图的TextRank方法作为对比方法。采用两种评价方法的性能,第一种采用自动评价方法,第二种方法采用拒绝率评价,拒绝率代表有多少抽取的关键词是不可以被人接受的。对本专利技术做进一步阐述的,所述步骤Step2、Step3和Step4中:(1)提到的基于TF-IDF的关键词抽取方法:TF-IDF的含义是词频逆文档频率,其假设是,高频率词应该具有较高的权重,除非它也是高文档频率。如果某个词比较少见,但是它在某篇文档中多次出现,那么它很有可能就反映了这篇文章的特性,正是我们所需要的关键词。计算词频:词频(TermFrequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(TermCount)的归一化,以防止它偏向长的文件。对于在某一特定文件里的词语ti来说,本文档来自技高网
...

【技术保护点】
1.基于主题与语义的对话语料关键词抽取方法,其特征在于:所述方法的具体步骤如下:Step1、首先爬取中文语料和访谈节目的对话语料,其次对对话语料和中文语料进行预处理;Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称KSel方法;Step4、利用TF‑IDF方法通过计算词频、逆向文件频率抽取关键词;Step5、将TF‑IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词。

【技术特征摘要】
1.基于主题与语义的对话语料关键词抽取方法,其特征在于:所述方法的具体步骤如下:Step1、首先爬取中文语料和访谈节目的对话语料,其次对对话语料和中文语料进行预处理;Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型;Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重,并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词,简称KSel方法;Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词;Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点,基于节点间语义相似度作为边的权重建图,通过图迭代得到最终的关键词。2.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step1的具体步骤为:Step1.1、首先人工编写爬虫程序,爬取中文语料和访谈节目中的对话语料;Step1.2、把已爬取的对话语料,经过过滤、去重得到不重复的对话语料,并把对话语料和中文语料存放到数据库中;Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作,得到干净的语料。3.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法,其特征在于:所述步骤Step2的具体步骤为:Step2.1、对对话语料和中文语料使用word2vec进行词向量训练,得到词的向量表示,即词向量;Step2.2、对对话语料和中文语料进行LDA建模训练,得到...

【专利技术属性】
技术研发人员:黄青松胡迁李帅彬郎冬冬郭勃宋莉娜
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1