一种短文本特征扩展方法、装置及服务器制造方法及图纸

技术编号:17939530 阅读:54 留言:0更新日期:2018-05-15 19:58
本发明专利技术实施例提供一种短文本特征扩展方法、装置及服务器,本发明专利技术实施例涉及语义识别技术领域。所述方法包括:对获取的短文本进行特征提取,以得到原主题‑单词向量;利用LDA主题模型生成所述短文本的第一文档‑主题向量和第一主题‑单词向量;去除所述第一文档‑主题向量中的噪声文档‑主题向量,以得到第二文档‑主题向量;根据第二文档‑主题向量和所述第一主题‑单词向量获取第二主题‑单词向量;将所述第二主题‑单词向量添加到原主题‑单词向量以形成新主题‑单词向量。所述服务器用于执行所述方法。本发明专利技术实施例通过去除所述第一文档‑主题向量中的噪声文档‑主题向量,提高了短文本特征扩展的准确性。

Short text feature extension method, device and server

The embodiment of the invention provides a short text feature expansion method, device and server, and the embodiment of the invention relates to the field of semantic recognition technology. The method includes: extracting the short text of the obtained short text to get the original topic vector, and using the LDA theme model to generate the first document theme vector and the first topic word vector of the short text, and remove the subject vector of the noise document in the subject vector of the first document, so as to get the second text. The second subject vector is obtained from the second document subject vector and the first topic word vector, and the second topic word vector is added to the original theme vector to form a new subject vector. The server is used to execute the method described. The embodiment of the invention improves the accuracy of the short text feature expansion by removing the noise documents and thematic vectors in the first document.

【技术实现步骤摘要】
一种短文本特征扩展方法、装置及服务器
本专利技术实施例涉及语义识别
,尤其涉及一种短文本特征扩展方法、装置及服务器。
技术介绍
随着电子商务(OnlineToOffline,简称O2O)、移动交通的发展,以地理位置服务为代表的地球空间信息及应用服务产业已经成为当前IT产业的重要组成部分,与国民经济、社会发展各个方面联系紧密。面对海量的本文信息,用户很难从中找到自己感兴趣的,因此对文本进行解析和分类是非常有必要的。文本解析和分类为处理和组织海量文本数据的关键技术,可以比较有效地解决信息杂乱的问题,方便用户准确地定位所需的信息和分流信息。但是,地理位置文本信息很多都是篇幅长度不超过200个字符的短文本。由于短文本篇幅短小,计算机不能很好地表征其语义,存在高维稀疏问题。即使短文本语料集利用改进后的信息增益特征选择方法,对特征矩阵进行了初步降维,依然存在维度稀疏,文本语义偏弱的问题。大量的地理位置短文本数据不仅含有丰富的信息,往往还蕴含巨大的潜在商业价值,因此采取适当的方法,对地理位置短文本进行扩展,缓解短文本稀疏问题是当今亟待解决的课题。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种短文本特征扩展方法、装置及服务器。一方面,本专利技术实施例提供一种短文本特征扩展方法,包括:对获取的短文本进行特征提取,以得到原主题-单词向量;利用LDA主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量另一方面,本专利技术实施例提供一种短文本特征扩展装置,包括:特征提取模块,用于对获取的短文本进行特征提取,以得到原主题-单词向量;生成模块,用于利用LDA主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;第一处理模块,用于去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;第二处理模块,用于根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;第二处理模块,用于合成模块,用于将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。再一方面,本专利技术实施例提供一种服务器,包括如上所述短文本特征扩展装置。本专利技术实施例提供的一种短文本特征扩展方法、装置及服务器,通过去除第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,根据第二文档-主题向量和第一主题-单词向量获取第二主题-单词向量,并将第二主题-单词向量添加到原主题-单词向量中,,提高了计算机进行语义识别的运算处理的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种短文本特征扩展方法流程示意图;图2为现有技术提供的LDA主题文档生成模型;图3为本专利技术实施例提供的一种短文本特征扩展方法整体流程示意图;图4为本专利技术实施例提供的一种装置结构示意图;图5为本专利技术另一实施例提供的一种装置结构示意图;图6为本专利技术又一实施例提供的一种装置的结构示意图;图7为本专利技术再一实施例提供的一种装置结构示意图;图8为本专利技术实施例提供的一种装置的实体结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术实施例提供的一种短文本特征扩展方法流程示意图,如图1所示,所述方法,包括:步骤101:对获取的短文本进行特征提取,以得到原主题-单词向量;在一种可选实施例中,获取到待扩展的短文本,并对该短文本进行特征提取,得到原主题-单词向量。其中,待扩展的短文本是地理位置短文本,获取短文本的方式可以是从电子地图中获取,也可以是用户提交的关于地理位置短文本,还可以是其他的获取方式,本实施例对此不作具体限定。应当说明的是,对获取到的短文本进行特征提取之前,先对该短文本进行分词、词性过滤、停用词过滤等预处理。步骤102:利用LDA主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;具体地,文档主题生成模型隐含狄利克雷分布(LatentDirichletAllocation,简称LDA)是一种具有层次的贝叶斯模型的文档-主题生成模型,因此也称三层贝叶斯模型,其中所述的三层结构包括文档、主题、词。文档-主题服从狄利克雷(Dirichlet)分布,主题-词服从多项分布。LDA主题模型能够用于挖掘文本语义。图2为现有技术提供的LDA主题文档生成模型,如图2所示,其中α和β是超参数,它们通过Dirichlet分布控制文档-主题分布θ和主题-单词分布θ是一个主题分布,表示该文档不同主题发生的概率值,由1*k的列向量进行表示,向量中的值表示在不同主题下发生的概率;z表示当前主题;w表示单词;M表示文档总数,N表示出现的单词总数。将获取到的地理位置短文本输入LDA主题模型中,利用LDA主题模型生成地理位置短文本的第一文档-主题向量和第一主题-单词向量。其中从短文本中提出的关键词是经过预处理后,剩下的词组或者短语等,能够代表短文本含义的一类词。其中,文档-主题向量是指文档在N个主题上的概率分布的向量,可以理解为地理位置短文本作为一个文档用多个主题向量来表示;主题-单词向量是指一个主题在N个单词上的概率分布的向量,可以理解为一个主题由多个单词向量来表示。步骤103:去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;在一种可选实施例中,去除第一文档-主题向量中的噪声文档-主题向量,利用LDA主题模型生成的第一文档-主题向量中会产生部分主题性不明确的文档-主题向量,称为噪声文档-主题向量,去除噪声文档-主题向量的第一文档-主题向量构成了第二文档-主题向量。步骤104:根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;在一种可选实施例中,根据第二文档-主题向量和第一主题-单词向量,可以获取到与第二文档-主题向量相对应的第二主题-单词向量。步骤105:将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。在一种可选实施例中,将得到的第二主题-单词向量添加到原主题-单词向量中,形成特征扩展后的新主题-单词向量。应当说明的是,将第二主题-单词向量添加到原主题-单词向量中时,可以加在原主题-单词向量后面,也可以加在原主题-单词向量中的任意位置,此处不做具体限定。还应当说明的是,在将第二主题-单词向量添加到原主题-单词向量前,需要查询第二主题-单词中是否存在原主题-单词向量中已经存在的单词,若在原主题-单词向量中已经存在,则将第二主题-单词向量中的本文档来自技高网...
一种短文本特征扩展方法、装置及服务器

【技术保护点】
一种短文本特征扩展方法,其特征在于,包括:对获取的短文本进行特征提取,以得到原主题‑单词向量;利用LDA主题模型生成所述短文本的第一文档‑主题向量和第一主题‑单词向量;去除所述第一文档‑主题向量中的噪声文档‑主题向量,以得到第二文档‑主题向量;根据第二文档‑主题向量和所述第一主题‑单词向量获取第二主题‑单词向量;将所述第二主题‑单词向量添加到原主题‑单词向量以形成新主题‑单词向量。

【技术特征摘要】
1.一种短文本特征扩展方法,其特征在于,包括:对获取的短文本进行特征提取,以得到原主题-单词向量;利用LDA主题模型生成所述短文本的第一文档-主题向量和第一主题-单词向量;去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量;根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量;将所述第二主题-单词向量添加到原主题-单词向量以形成新主题-单词向量。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:计算所述第二主题-单词向量中对应的第一单词和第二单词的编辑距离,若判断所述编辑距离小于第一阈值,则保留所述第一单词并删除所述第二单词,同时选择第一单词概率和第二单词概率中数值较大的作为第一单词概率。3.根据权利要求1所述的方法,其特征在于,所述方法,还包括:获取长文本语料库;根据所述长文本语料库训练得到LDA主题模型。4.根据权利要求1所述的方法,其特征在于,所述去除所述第一文档-主题向量中的噪声文档-主题向量,以得到第二文档-主题向量,包括:计算所述第一文档-主题向量的各主题在所述长文本语料库中的多个长文本上对应的主题概率的方差;去除对应的方差小于第二阈值的主题,形成第二文档-主题向量。5.根据权利要求1所述的方法,其特征在于,所述根据第二文档-主题向量和所述第一主题-单词向量获取第二主题-单词向量,包括:获取所述第二文档-主题向量中主题概率大于第三阈值的主题,以得到新第二文档-主题向量;根据所述新第二文档-主题向量和所述第一主题-单词向量获得满足预设条件的第二主题-单词向量。6.根据权利要求5所述的方法,其特征在于,所述根据所述新第二文档-主题向量获得满足预设条件的第二主题-单词向量,包括:获取所述新第二文档-主题向量中的主题在所述第一主题-单词向量中对应的单词的单词概率大于第四阈值的第二主题-单词向量。7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法,还包括:将所述原主题-单词向量做归一化处理。8.一种短文本特征扩展装置,其特征在于,包括:特...

【专利技术属性】
技术研发人员:张凌宇
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1