用于识别文本主题的方法和装置制造方法及图纸

技术编号:18083830 阅读:35 留言:0更新日期:2018-05-31 12:22
本申请公开了用于识别文本主题的方法和装置。该方法的一具体实施方式包括:对待识别文本进行预处理得到关键词集合;随机确定关键词集合中的每个关键词所属的主题;统计各个主题包括的关键词的数目;对关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;根据各个主题包括的关键词的数目与关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。该实施方式提高了文本主题识别的精确度。

【技术实现步骤摘要】
用于识别文本主题的方法和装置
本申请涉及计算机
,具体涉及语义分析领域,尤其涉及用于识别文本主题的方法和装置。
技术介绍
随着互联网的快速发展,越来越多的用户通过网络进行信息的共享,由于信息多而杂,如何利用这些信息进行决策分析已经成为一个重要的问题。例如,在电子商务领域,越来越多的消费者开始网上购物,并对购物体验进行评价,这种商品评价数据呈爆炸式增长,而这些评论数据可以为电商和消费者提供丰富的决策参考。因此,有必要从评论数据的文本特征出发,快速而有效地识别评论数据的有用性,发现消费者的意见和态度,并进行情感分析预测,而文本特征提取则是文本挖掘的关键步骤。目前,文本特征提取方法通常是运用统计学或信息论的方法,挑选出与类别标记最显示的关键词作为特征集合。它们大都建立以词袋(BagofWords,BOW)模型为基础,首先从文本中抽取关键词,然后采用一些评估策略算法(如文本反文本频率TF-IDF,信息增益,互信息等)挑选出最有价值的关键词作为特征向量。但是这种方法获取的特征向量维度高,对于评论等短文本,通过BOW模型生成的特征向量将会是一个很稀疏的向量,增加了后续文本处理的难度;另外,评论等短文本具有主题不明确的特点,也会影响BOW的处理效果。因此,这样的方法,对于评论等短文本的特征提取,提取的特征向量效果不佳,识别文本主题的精确度差。
技术实现思路
本申请的目的在于提出一种改进的用于识别文本主题的方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种用于识别文本主题的方法,所述方法包括:对待识别文本进行预处理得到关键词集合;随机确定所述关键词集合中的每个关键词所属的主题;统计各个主题包括的关键词的数目;对所述关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数,其中,所述结果收敛包括重复执行以下步骤得到的各个主题的关键词分布的变化量小于预定阈值:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;根据各个主题包括的关键词的数目与所述关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。在一些实施例中,所述方法还包括训练获得概率分布的步骤,其中,所述训练获得概率分布的步骤,包括:获取历史文本集合,其中,所述历史文本集合包括至少一个历史文本子集,所述历史文本子集是根据所述历史文本集合中文本的生成时间和文本的数量对所述历史文本集合划分得到的;通过文本主题生成模型训练获得所述待识别文本所在的历史文本子集中各个主题的关键词分布。在一些实施例中,所述通过文本主题生成模型训练获得所述历史文本子集中各个主题的关键词分布,包括:通过文本主题生成模型训练获得文本生成时间最早的历史文本子集中各个主题的关键词分布;基于训练获得的历史文本子集中各个主题的关键词分布,按照所述历史文本子集中文本的生成时间,依次确定除所述文本生成时间最早的子集外其他子集中文本的主题分布与各个主题的关键词分布。在一些实施例中,所述通过文本主题生成模型训练获得文本生成时间最早的子集中各个主题的关键词分布,包括:对于文本生成时间最早的子集中文本,执行以下步骤,直到生成该文本:对于每个主题,从第一狄利克雷分布中抽样出一个多项式分布作为该主题在关键词上的分布;从一个离散概率分布中随机采样出一个值作为该文本的长度;从第二狄利克雷分布中抽样出一个多项式分布作为该文本在主题上的分布;对于该文本中的每个关键词,从该文本在主题上的分布中抽样出一个主题,再从抽样出的主题在关键词上的分布中抽样出一个关键词。在一些实施例中,所述方法还包括:计算所述关键词集合中每个关键词的词频-逆向文件频率值;响应于所述词频-逆向文件频率值与该关键词出现在子集的次数的比值小于预定阈值,则将所述关键词加入停用词表;以及所述预处理为分词以及根据所述停用词表删除停用词。第二方面,本申请提供了一种用于识别文本主题的装置,所述装置包括:预处理单元,配置用于对待识别文本进行预处理得到关键词集合;主题确定单元,配置用于随机确定所述关键词集合中的每个关键词所属的主题;统计单元,配置用于统计各个主题包括的关键词的数目;抽样单元,配置用于对所述关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数,其中,所述结果收敛包括重复执行以下步骤得到的各个主题的关键词分布的变化量小于预定阈值:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;概率确定单元,配置用于根据各个主题包括的关键词的数目与所述关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。在一些实施例中,所述装置还包括训练单元,所述训练单元,包括:获取子单元,配置用于获取历史文本集合,其中,所述历史文本集合包括至少一个历史文本子集,所述历史文本子集是根据所述历史文本集合中文本的生成时间和文本的数量对所述历史文本集合划分得到的;训练子单元,配置用于通过文本主题生成模型训练获得所述待识别文本所在的历史文本子集中各个主题的关键词分布。在一些实施例中,所述训练子单元,进一步配置用于:通过文本主题生成模型训练获得文本生成时间最早的历史文本子集中各个主题的关键词分布;基于训练获得的历史文本子集中各个主题的关键词分布,按照所述历史文本子集中文本的生成时间,依次确定除所述文本生成时间最早的子集外其他子集中文本的主题分布与各个主题的关键词分布。在一些实施例中,所述训练子单元,进一步配置用于:对于文本生成时间最早的子集中文本,执行以下步骤,直到生成该文本:对于每个主题,从第一狄利克雷分布中抽样出一个多项式分布作为该主题在关键词上的分布;从一个离散概率分布中随机采样出一个值作为该文本的长度;从第二狄利克雷分布中抽样出一个多项式分布作为该文本在主题上的分布;对于该文本中的每个关键词,从该文本在主题上的分布中抽样出一个主题,再从抽样出的主题在关键词上的分布中抽样出一个关键词。在一些实施例中,所述预处理为分词以及根据所述停用词表删除停用词;以及所述装置还包括:计算单元,配置用于计算所述关键词集合中每个关键词的词频-逆向文件频率值;加入单元,配置用于响应于所述词频-逆向文件频率值与该关键词出现在子集的次数的比值小于预定阈值,则将所述关键词加入停用词表。本申请提供的用于识别文本主题的方法和装置,通过对待识别文本进行预处理得到关键词集合,随机确定关键词集合中的每个关键词所属的主题,并统计各个主题包括的关键词的数目,而后对关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数:将关键词所属主题包括的关键词的数目减一,根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一,最后根据各个主题包括的关键词的数目与关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率,提高了文本主题识别的精确度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于识别文本主题的方本文档来自技高网...
用于识别文本主题的方法和装置

【技术保护点】
一种用于识别文本主题的方法,其特征在于,所述方法包括:对待识别文本进行预处理得到关键词集合;随机确定所述关键词集合中的每个关键词所属的主题;统计各个主题包括的关键词的数目;对所述关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数,其中,所述结果收敛包括重复执行以下步骤得到的各个主题的关键词分布的变化量小于预定阈值:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;根据各个主题包括的关键词的数目与所述关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。

【技术特征摘要】
1.一种用于识别文本主题的方法,其特征在于,所述方法包括:对待识别文本进行预处理得到关键词集合;随机确定所述关键词集合中的每个关键词所属的主题;统计各个主题包括的关键词的数目;对所述关键词集合中的每个关键词重复执行以下步骤,直到结果收敛或达到预设的迭代次数,其中,所述结果收敛包括重复执行以下步骤得到的各个主题的关键词分布的变化量小于预定阈值:将关键词所属主题包括的关键词的数目减一;根据预先训练获得的概率分布进行抽样得到关键词所属主题,将抽样得到的主题包括的关键词的数目加一;根据各个主题包括的关键词的数目与所述关键词集合中关键词的数目确定各个主题出现在待识别文本中的概率。2.根据权利要求1所述的方法,其特征在于,所述方法还包括训练获得概率分布的步骤,其中,所述训练获得概率分布的步骤,包括:获取历史文本集合,其中,所述历史文本集合包括至少一个历史文本子集,所述历史文本子集是根据所述历史文本集合中文本的生成时间和文本的数量对所述历史文本集合划分得到的;通过文本主题生成模型训练获得所述待识别文本所在的历史文本子集中各个主题的关键词分布。3.根据权利要求2所述的方法,其特征在于,所述通过文本主题生成模型训练获得所述待识别文本所在的历史文本子集中各个主题的关键词分布,包括:通过文本主题生成模型训练获得文本生成时间最早的历史文本子集中各个主题的关键词分布;基于训练获得的历史文本子集中各个主题的关键词分布,按照所述历史文本子集中文本的生成时间,依次确定除所述文本生成时间最早的子集外其他子集中文本的主题分布与各个主题的关键词分布。4.根据权利要求3所述的方法,其特征在于,所述通过文本主题生成模型训练获得文本生成时间最早的子集中各个主题的关键词分布,包括:对于文本生成时间最早的子集中文本,执行以下步骤,直到生成该文本:对于每个主题,从第一狄利克雷分布中抽样出一个多项式分布作为该主题在关键词上的分布;从一个离散概率分布中随机采样出一个值作为该文本的长度;从第二狄利克雷分布中抽样出一个多项式分布作为该文本在主题上的分布;对于该文本中的每个关键词,从该文本在主题上的分布中抽样出一个主题,再从抽样出的主题在关键词上的分布中抽样出一个关键词。5.根据权利要求2-4中任一项所述的方法,其特征在于,所述方法还包括:计算所述关键词集合中每个关键词的词频-逆向文件频率值;响应于所述词频-逆向文件频率值与该关键词出现在子集的次数的比值小于预定阈值,则将所述关键词加入停用词表;以及所述预处理为分词以及根据所述停用词表删除停用词。6.一种用于识...

【专利技术属性】
技术研发人员:张帅
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1