【技术实现步骤摘要】
一种数据流主题特征提取方法、装置、设备及存储介质
本专利技术涉及文本数据处理
,特别涉及一种数据流主题特征提取方法、装置、设备及一种可读存储介质。
技术介绍
主题模型是一种可以从海量数据中找出用户所需要的信息的技术,其通过分析语料中的每个文档,统计文档中的词语,并根据统计得到的信息来推断当前文档中含有哪些主题,以及每个主题所占的比例是多少。LDA(LatentDirichletAllocation)是当前主流的主题模型,在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。针对各种应用场景,产生了各种基于LDA主题模型算法的变种算法。其中,用于处理数据流的一类LDA主题模型称为在线LDA(OnlineLDA)算法,如:在线吉布斯采样算法(OnlineGibbsSampling,OGS)、在线变分推断算法(OnlineVariationalInference,OVB)、在线置信传播算法(OnlineBeliefPropagation,OBP)等。在线LDA算法的执行基于词汇表,在算法执行之前,需要扫描全部的语料,将语料中出现的所有单词组织成词 ...
【技术保护点】
1.一种数据流主题特征提取方法,基于在线LDA算法,其特征在于,包括:将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率;运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型。
【技术特征摘要】
1.一种数据流主题特征提取方法,基于在线LDA算法,其特征在于,包括:将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率;运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型。2.如权利要求1所述的数据流主题特征提取方法,其特征在于,所述根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率,包括:根据公式1为所述待处理单词分配各主题概率,得到初始主题概率;其中,所述公式1具体为:其中,LOC(w,k)是定位单词w在主题k的单次分布中的位置的函数,WORD(j,k)是主题k的单词分布中坐标为j的单词。3.如权利要求1所述的数据流主题特征提取方法,其特征在于,所述运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率,包括:根据新词汇表将所述初始主题概率带入公式2进行数据处理,得到各所述待处理单词的主题概率;其中,所述公式2具体为:μw,d(k)是文本d中单词w属于主题k的概率;是在主题k的单词分布中,除了文档d外其他所有文本中单词w的概率;是文本d中除了单词w外,其它单词属于主题k的计数;是在主题k的单词分布中,除了文本d中的单词w外,其他所有单词属于主题k的概率。4.一种数据流主题特征提取装置,基于在线LDA算法,其特征在于,包括:语料确定单元,用于将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;单词...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。