基于主题与语义的对话语料关键词抽取方法技术

技术编号：19056880 阅读：179 留言：0更新日期：2018-09-29 12:11

本发明专利技术涉及一种基于主题与语义的对话语料关键词抽取方法，属于自然语言处理技术领域。本发明专利技术将预处理后的对话语料与中文语料结合训练得到词向量和主题模型；结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词，简称KSel方法；利用TF‑IDF方法通过计算词频、逆向文件频率抽取关键词；将TF‑IDF方法和KSel方法抽取的关键词作为节点，基于节点间语义相似度作为边的权重建图，通过图迭代得到最终的关键词。本发明专利技术有效的解决传统算法忽略语义和主题的问题，同时兼顾词语频率。

全部详细技术资料下载

【技术实现步骤摘要】
基于主题与语义的对话语料关键词抽取方法
本专利技术涉及基于主题与语义的对话语料关键词抽取方法，属于自然语言处理

技术介绍
关键词有助于提高文本分类、信息检索等自然语言处理任务的性能。因此国内外出现了不少自动关键词抽取或生成的研究。近年来，随着即时聊天、网购咨询、自动问答系统等社交网络的迅猛发展，积累了大量的对话特性文档，对话记录隐含了人们聊天的情景和目的，反映了对话者的兴趣。从对话中抽取关键词可以用来总结、组织、检索对话内容，也可被用于用户个人服务、广告推荐等。相较于传统长文本，这类数据具有对话性、短文本、结构松散等特点，导致关键词难以遴选。传统关键词抽取主要集中在网页检索，科技文献和文本文档等领域，方法主要分为有监督方法和无监督方法。有监督方法采用人工标注的关键词文档训练分类器得到关键词。无监督方法主要计算词的显著性权值，然后排序推荐。但是针对对话语料的关键词抽取的研究较少，由于对话文本对话性、短文本、结构松散等特点，采用传统的关键词抽取方法是否有效值得怀疑。目前根据国内外针对对话语料的关键词抽取技术的研究可以得出，简单的基于TF-IDF的关键词抽取方法优于基于图的方法，而且词性的过滤和句子重要性得分有助于关键词抽取，但是基于共现词的聚类方法不会拾取词的语义相似性。利用最大熵分类器决定某个一元词是否为关键词，虽然同时考虑了二元词的扩展，但是需要标注关键词训练分类器而对话语料中标注好关键词的文档很匮乏。对此，本专利技术所提方法聚焦语义和主题信息，结合词语义聚类，词性权重，句子主题相关性等多权重来抽取关键词，提出一种基于主题与语义的对话语料关键词抽...

【技术保护点】
1.基于主题与语义的对话语料关键词抽取方法，其特征在于：所述方法的具体步骤如下：Step1、首先爬取中文语料和访谈节目的对话语料，其次对对话语料和中文语料进行预处理；Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型；Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词，简称KSel方法；Step4、利用TF‑IDF方法通过计算词频、逆向文件频率抽取关键词；Step5、将TF‑IDF方法和KSel方法抽取的关键词作为节点，基于节点间语义相似度作为边的权重建图，通过图迭代得到最终的关键词。

【技术特征摘要】
1.基于主题与语义的对话语料关键词抽取方法，其特征在于：所述方法的具体步骤如下：Step1、首先爬取中文语料和访谈节目的对话语料，其次对对话语料和中文语料进行预处理；Step2、将预处理后的对话语料与中文语料结合训练得到词向量和主题模型；Step3、结合词语义权重、词语义聚类权重、词性权重多权重最终得到词的权重，并依据词权重来抽取关键词进而得到基于语义抽取出的对话语料中的关键词，简称KSel方法；Step4、利用TF-IDF方法通过计算词频、逆向文件频率抽取关键词；Step5、将TF-IDF方法和KSel方法抽取的关键词作为节点，基于节点间语义相似度作为边的权重建图，通过图迭代得到最终的关键词。2.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step1的具体步骤为：Step1.1、首先人工编写爬虫程序，爬取中文语料和访谈节目中的对话语料；Step1.2、把已爬取的对话语料，经过过滤、去重得到不重复的对话语料，并把对话语料和中文语料存放到数据库中；Step1.3、对数据库中的语料进行分词、去停用词、清洗特殊符号相关的预处理工作，得到干净的语料。3.根据权利要求1所述的基于主题与语义的对话语料关键词抽取方法，其特征在于：所述步骤Step2的具体步骤为：Step2.1、对对话语料和中文语料使用word2vec进行词向量训练，得到词的向量表示，即词向量；Step2.2、对对话语料和中文语料进行LDA建模训练，得到...

【专利技术属性】
技术研发人员：黄青松，胡迁，李帅彬，郎冬冬，郭勃，宋莉娜，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人