【技术实现步骤摘要】
一种构建文档-关键词异构网络模型方法
本专利技术涉及数据挖掘与自然语言处理
,特别是涉及一种可应用于提取文档向量、文本分类、链路预测等下游任务的构建文档-关键词异构网络模型方法。
技术介绍
现如今,文本已经成为众多平台上研究的热点问题,同时由于大多数文本都是非结构化或半结构化数据,文本挖掘已经是面向多领域进行数据挖掘重要的研究角度之一。同时随着互联网的逐渐普及,网络文本的数据规模越来越大,信息量的增长速度也随之逐渐扩大,要从海量数据中知道到用户所需要的信息也逐渐变得越来越困难。传统的方法,包括有对一篇文档所包含的所有词向量求平均值,运用基于神经网络概率理论对自然语言进行处理的doc2vec模型等。最近,包括卷积神经网络(CNN)和循环神经网络(RNN)等在内的深度学习模型已广泛用于学习文本表示,但由于CNN和RNN优先考虑局部性和序列性,这些深度学习模型虽然可以获取局部连续词序列中的语义和句法信息,但忽略了语料库中非连续的全局词共现和长距离语义。针对这个问题,我们提出一种新的构建文档-关键词异构网络模型方法。< ...
【技术保护点】
1.一种构建文档-关键词异构网络模型方法,其特征在于:包括如下步骤:/n1)获取文本语料作为语料库;/n2)获取停用词语料;/n3)用获取的停用词语料对获取的文本语料进行去停用词处理,得到经过去停用词处理后的单词;/n4)计算和保存步骤3)中得到的单词的词频,所述词频定义为某个单词在某一篇文章中出现的次数,取词频大于等于N的单词作为关键词,所述N为本专利技术预定义的一个固定的整数值,其数值大于1;/n5)计算和保存关键词间互信息PMI(i,j),如下述公式所示:/n
【技术特征摘要】
1.一种构建文档-关键词异构网络模型方法,其特征在于:包括如下步骤:
1)获取文本语料作为语料库;
2)获取停用词语料;
3)用获取的停用词语料对获取的文本语料进行去停用词处理,得到经过去停用词处理后的单词;
4)计算和保存步骤3)中得到的单词的词频,所述词频定义为某个单词在某一篇文章中出现的次数,取词频大于等于N的单词作为关键词,所述N为本发明预定义的一个固定的整数值,其数值大于1;
5)计算和保存关键词间互信息PMI(i,j),如下述公式所示:
其中,i和j是步骤4)中作为关键词的单词,#W(i)是语料库中包含单词i的文档的数量,#W(i,j)是同时包含单词i和j的文档...
【专利技术属性】
技术研发人员:段大高,闫光宇,韩忠明,杨伟杰,尹丹琪,
申请(专利权)人:北京工商大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。