当前位置: 首页 > 专利查询>苏州大学专利>正文

一种数据流主题特征提取方法、装置、设备及存储介质制造方法及图纸

技术编号:21060027 阅读:35 留言:0更新日期:2019-05-08 06:52
本发明专利技术所提供的数据流主题特征提取方法通过使用词汇表的单词数目不固定的LDA模型,通过使其主题单词分布服从原子数目不固定的狄利克雷过程,而非原子数目固定的狄利克雷分布,使得新模型在遇到未在词汇表中出现的新单词时可以将其加入到词汇表中并继续算法的执行,通过不断地遇到并添加新的单词,实现信息充分利用的同时没有增加内存处理压力,使LDA模型中的词汇表与需要处理的语料更加贴合,提升了模型的精度,增强了在线LDA算法处理数据流的能力。本发明专利技术还公开了一种数据流主题特征提取装置、设备及一种可读存储介质,具有上述有益效果。

【技术实现步骤摘要】
一种数据流主题特征提取方法、装置、设备及存储介质
本专利技术涉及文本数据处理
,特别涉及一种数据流主题特征提取方法、装置、设备及一种可读存储介质。
技术介绍
主题模型是一种可以从海量数据中找出用户所需要的信息的技术,其通过分析语料中的每个文档,统计文档中的词语,并根据统计得到的信息来推断当前文档中含有哪些主题,以及每个主题所占的比例是多少。LDA(LatentDirichletAllocation)是当前主流的主题模型,在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。针对各种应用场景,产生了各种基于LDA主题模型算法的变种算法。其中,用于处理数据流的一类LDA主题模型称为在线LDA(OnlineLDA)算法,如:在线吉布斯采样算法(OnlineGibbsSampling,OGS)、在线变分推断算法(OnlineVariationalInference,OVB)、在线置信传播算法(OnlineBeliefPropagation,OBP)等。在线LDA算法的执行基于词汇表,在算法执行之前,需要扫描全部的语料,将语料中出现的所有单词组织成词汇表后,算法才可以开本文档来自技高网...

【技术保护点】
1.一种数据流主题特征提取方法,基于在线LDA算法,其特征在于,包括:将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率;运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型。

【技术特征摘要】
1.一种数据流主题特征提取方法,基于在线LDA算法,其特征在于,包括:将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;对所述待处理批次语料中包含的单词进行扫描识别,得到待处理单词;将所述待处理单词与词汇表中的单词进行比对,判断所述待处理单词中是否包括所述词汇表中不存在的新单词;如果有,将所述新单词添加至所述词汇表中,得到更新后的词汇表;根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率;运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率;其中,所述新LDA模型为基于置信传播框架,服从狄利克雷过程的LDA模型。2.如权利要求1所述的数据流主题特征提取方法,其特征在于,所述根据折棒构造为所述待处理单词分配各主题概率,得到初始主题概率,包括:根据公式1为所述待处理单词分配各主题概率,得到初始主题概率;其中,所述公式1具体为:其中,LOC(w,k)是定位单词w在主题k的单次分布中的位置的函数,WORD(j,k)是主题k的单词分布中坐标为j的单词。3.如权利要求1所述的数据流主题特征提取方法,其特征在于,所述运行新LDA模型根据新词汇表对所述初始主题概率进行数据处理,得到各所述待处理单词的主题概率,包括:根据新词汇表将所述初始主题概率带入公式2进行数据处理,得到各所述待处理单词的主题概率;其中,所述公式2具体为:μw,d(k)是文本d中单词w属于主题k的概率;是在主题k的单词分布中,除了文档d外其他所有文本中单词w的概率;是文本d中除了单词w外,其它单词属于主题k的计数;是在主题k的单词分布中,除了文本d中的单词w外,其他所有单词属于主题k的概率。4.一种数据流主题特征提取装置,基于在线LDA算法,其特征在于,包括:语料确定单元,用于将接收到的数据流按照到达时间顺序组织成若干批次语料,并确定当前待处理批次语料;单词...

【专利技术属性】
技术研发人员:杨璐王猛
申请(专利权)人:苏州大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1