一种基于Doc2vec的相似实体挖掘方法技术

技术编号：17541603 阅读：40 留言：0更新日期：2018-03-24 18:37

本发明专利技术属于自然语言处理中的相似文档挖掘问题，涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等技术领域。本发明专利技术提出了一种基于Doc2vec的相似实体挖掘方法。通过实体的描述文档，使用Word2vec词嵌入表达、TFIDF文档关键词提取、使用Doc2vec将实体描述文档转换为连续稠密的向量，使用Balltree数据结构，高效的挖掘相似实体。

A method of mining similar entity based on Doc2vec

The invention belongs to the similar document mining problem in Natural Language Processing, which involves the technical fields of word embedding, expression, keyword extraction, document embedding and expression, and nearest neighbor fast computation in high dimensional space. This invention puts forward a method of similar entity mining based on Doc2vec. Through entity description documents, we use Word2vec words to embed expressions, extract keywords from TFIDF documents, use Doc2vec to transform entity description documents into continuous dense vectors, and use Balltree data structure to efficiently mine similar entities.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Doc2vec的相似实体挖掘方法
本专利技术属于自然语言处理中的相似文档挖掘问题，涉及到词嵌入表达、文档关键词提取、文档嵌入表达、高维空间中最近邻快速计算等

技术介绍
在搜索、机器阅读理解、用户画像、推荐系统等诸多领域内，相似词挖掘、相似文档挖掘以及更具体的相似APP或相似公众号挖掘起着关键的作用。而进行相似挖掘，一种最直接的方法需要先将词语或文档映射一个高维空间中，即词嵌入或文档嵌入。目前词嵌入(wordembeddings)最主流以及最成功的方法是Word2Vec技术。该技术是一种神经概率语言模型，该模型首先由BengioY等人提出。神经概率语言模型是想通过上下文来预测下一个词的概率，其认为在文档中一个位置词语的概率分布可以由该位置的上下文词语来确定。通过使目标函数即预测词的概率最大化，该模型的嵌入层的输出结果可以作为词的一种连续稠密向量表达。基于该模型，MikolovT等人提出了著名的Word2Vec技术，包括CBOW(continuousbagofwords)与Skip-gram两种模型。并且基于多层softmax(hierarchicalsoftmax)和负采样(negativesampling,NEG)等方法加快了模型训练。词嵌入作为自然语言处理中的一种通用方法，用途广泛，特别是其在词语相似性计算中的应用。但是在特定领域内，如用户画像和推荐系统中，用户使用的APP或关注的公众号是刻画用户的重要标签，因此APP或公众号的相似性计算尤为关键，但由于APP或公众号名称的歧义性和有些名称无法通过通用的分词工具从文本中切分出来等因素，使...
一种基于Doc2vec的相似实体挖掘方法

【技术保护点】
一种基于Doc2vec的相似实体挖掘方法，其特征在于，包括以下步骤：步骤1，对通用语料进行分词，使用Skip‑gram模型计算词向量，该模型的目标函数是

【技术特征摘要】
1.一种基于Doc2vec的相似实体挖掘方法，其特征在于，包括以下步骤：步骤1，对通用语料进行分词，使用Skip-gram模型计算词向量，该模型的目标函数是其中，p(wt+j|wt)表示在文本中，已知位置t的词语是wt时，位置t+j的词语是wt+j的后验概率，通过softmax函数求得其中，V表示所有词语组成的词汇表，表示词语wi在嵌入层的向量表示，为其转置，表示词语wi的在输出层的向量表示；使用Adam优化器对目标函数进行迭代优化，使用hierarchicalsoftmax方法加速模型的训练；步骤2，对实体描述文档进行分词与词性标注，并使用TF-IDF算法计算文档关键词及权重，词语wi在文档dj中的权重weighti，j＝TFi，j×IDFi其中，TFi，j表示词频，即词语i在文档j中的出现的次数，DFi表示文档频率，即包含词语i的文档的个数，IDF为DF的对数的倒数通过词...

【专利技术属性】
技术研发人员：李石君，刘杰，杨济海，李号号，余伟，余放，李宇轩，
申请(专利权)人：武汉大学，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人