【技术实现步骤摘要】
一种文档主题确定方法及装置
本申请涉及大数据领域,尤其涉及一种文档主题确定方法及装置。
技术介绍
随着信息技术的飞速发展,信息传输的瓶颈已被打破,人们可以方便的接触到海量的信息内容,如何从中快速的了解信息内容,成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,面对大量的文档信息,如何能够通过对文档进行归类,使得用户能够尽快的根据文档的类别找到感兴趣文档,是目前对文档处理的核心内容。文档的主题是对文档进行归类的依据。那么,如何确定一篇文档的主题是目前需要解决的问题。
技术实现思路
为了解决现有技术存在的技术问题,本申请提供一种文档主题确定方法及装置,实现确定文档主题的目的。本申请提供了一种文档主题确定方法,预先根据LabeledLDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别 ...
【技术保护点】
一种文档主题确定方法,其特征在于,预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词‑标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率,所述目标单词对应的“单词‑标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;根据目标单词对应的“单词‑标签”条件概率和词频, ...
【技术特征摘要】
1.一种文档主题确定方法,其特征在于,预先根据LabeledLDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。2.根据权利要求1所述的方法,其特征在于,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。3.根据权利要求2所述的方法,其特征在于,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。4.根据权利要求3所述的方法,其特征在于,所述每个训练文档的概率均为1。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。6.一种文档主题确定装置,其特征在于,所述装置包括:训练单元、获取单元、第一查找单元、第二查找单元、...
【专利技术属性】
技术研发人员:赵耕弘,张霞,赵立军,崔朝辉,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。