一种短文本特征扩展方法、装置及服务器制造方法及图纸

技术编号：17939530 阅读：54 留言：0更新日期：2018-05-15 19:58

本发明专利技术实施例提供一种短文本特征扩展方法、装置及服务器，本发明专利技术实施例涉及语义识别技术领域。所述方法包括：对获取的短文本进行特征提取，以得到原主题‑单词向量；利用LDA主题模型生成所述短文本的第一文档‑主题向量和第一主题‑单词向量；去除所述第一文档‑主题向量中的噪声文档‑主题向量，以得到第二文档‑主题向量；根据第二文档‑主题向量和所述第一主题‑单词向量获取第二主题‑单词向量；将所述第二主题‑单词向量添加到原主题‑单词向量以形成新主题‑单词向量。所述服务器用于执行所述方法。本发明专利技术实施例通过去除所述第一文档‑主题向量中的噪声文档‑主题向量，提高了短文本特征扩展的准确性。

Short text feature extension method, device and server

The embodiment of the invention provides a short text feature expansion method, device and server, and the embodiment of the invention relates to the field of semantic recognition technology. The method includes: extracting the short text of the obtained short text to get the original topic vector, and using the LDA theme model to generate the first document theme vector and the first topic word vector of the short text, and remove the subject vector of the noise document in the subject vector of the first document, so as to get the second text. The second subject vector is obtained from the second document subject vector and the first topic word vector, and the second topic word vector is added to the original theme vector to form a new subject vector. The server is used to execute the method described. The embodiment of the invention improves the accuracy of the short text feature expansion by removing the noise documents and thematic vectors in the first document.

全部详细技术资料下载

【技术实现步骤摘要】
一种短文本特征扩展方法、装置及服务器
本专利技术实施例涉及语义识别
，尤其涉及一种短文本特征扩展方法、装置及服务器。
技术介绍
随着电子商务(OnlineToOffline，简称O2O)、移动交通的发展，以地理位置服务为代表的地球空间信息及应用服务产业已经成为当前IT产业的重要组成部分，与国民经济、社会发展各个方面联系紧密。面对海量的本文信息，用户很难从中找到自己感兴趣的，因此对文本进行解析和分类是非常有必要的。文本解析和分类为处理和组织海量文本数据的关键技术，可以比较有效地解决信息杂乱的问题，方便用户准确地定位所需的信息和分流信息。但是，地理位置文本信息很多都是篇幅长度不超过200个字符的短文本。由于短文本篇幅短小，计算机不能很好地表征其语义，存在高维稀疏问题。即使短文本语料集利用改进后的信息增益特征选择方法，对特征矩阵进行了初步降维，依然存在维度稀疏，文本语义偏弱的问题。大量的地理位置短文本数据不仅含有丰富的信息，往往还蕴含巨大的潜在商业价值，因此采取适当的方法，对地理位置短文本进行扩展，缓解短文本稀疏问题是当今亟待解决的课题。
技术实现思路
针对现有技术存在的问题，本专利技术实施例提供一种短文本特征扩展方法、装置及服务器。一方面，本专利技术实施例提供一种短文本特征扩展方法，包括：对获取的短文本进行特征提取，以得到原主题-单词向量；利用LDA主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量；去除所述第一文档-主题向量中的噪声文档-主题向量，以得到第二文档-主题向量；根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量；将...
一种短文本特征扩展方法、装置及服务器

【技术保护点】
一种短文本特征扩展方法，其特征在于，包括：对获取的短文本进行特征提取，以得到原主题‑单词向量；利用LDA主题模型生成所述短文本的第一文档‑主题向量和第一主题‑单词向量；去除所述第一文档‑主题向量中的噪声文档‑主题向量，以得到第二文档‑主题向量；根据第二文档‑主题向量和所述第一主题‑单词向量获取第二主题‑单词向量；将所述第二主题‑单词向量添加到原主题‑单词向量以形成新主题‑单词向量。

【技术特征摘要】
1.一种短文本特征扩展方法，其特征在于，包括：对获取的短文本进行特征提取，以得到原主题-单词向量；利用LDA主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量；去除所述第一文档-主题向量中的噪声文档-主题向量，以得到第二文档-主题向量；根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量；将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：计算所述第二主题-单词向量中对应的第一单词和第二单词的编辑距离，若判断所述编辑距离小于第一阈值，则保留所述第一单词并删除所述第二单词，同时选择第一单词概率和第二单词概率中数值较大的作为第一单词概率。3.根据权利要求1所述的方法，其特征在于，所述方法，还包括：获取长文本语料库；根据所述长文本语料库训练得到LDA主题模型。4.根据权利要求1所述的方法，其特征在于，所述去除所述第一文档-主题向量中的噪声文档-主题向量，以得到第二文档-主题向量，包括：计算所述第一文档-主题向量的各主题在所述长文本语料库中的多个长文本上对应的主题概率的方差；去除对应的方差小于第二阈值的主题，形成第二文档-主题向量。5.根据权利要求1所述的方法，其特征在于，所述根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量，包括：获取所述第二文档-主题向量中主题概率大于第三阈值的主题，以得到新第二文档-主题向量；根据所述新第二文档-主题向量和所述第一主题-单词向量获得满足预设条件的第二主题-单词向量。6.根据权利要求5所述的方法，其特征在于，所述根据所述新第二文档-主题向量获得满足预设条件的第二主题-单词向量，包括：获取所述新第二文档-主题向量中的主题在所述第一主题-单词向量中对应的单词的单词概率大于第四阈值的第二主题-单词向量。7.根据权利要求1-6任一项所述的方法，其特征在于，所述方法，还包括：将所述原主题-单词向量做归一化处理。8.一种短文本特征扩展装置，其特征在于，包括：特...

【专利技术属性】
技术研发人员：张凌宇，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人