一种文档主题确定方法及装置制造方法及图纸

技术编号:16270005 阅读:25 留言:0更新日期:2017-09-22 21:40
本申请实施例公开了一种文档主题确定方法和装置,实现对目标文档主题的确定。该方法预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;然后获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率;从所述单词概率集合中,查找所述目标单词对应的词频;根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率;根据所述目标文档对应的“标签‑目标文档”条件概率确定所述目标文档的主题。

【技术实现步骤摘要】
一种文档主题确定方法及装置
本申请涉及大数据领域,尤其涉及一种文档主题确定方法及装置。
技术介绍
随着信息技术的飞速发展,信息传输的瓶颈已被打破,人们可以方便的接触到海量的信息内容,如何从中快速的了解信息内容,成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀,面对大量的文档信息,如何能够通过对文档进行归类,使得用户能够尽快的根据文档的类别找到感兴趣文档,是目前对文档处理的核心内容。文档的主题是对文档进行归类的依据。那么,如何确定一篇文档的主题是目前需要解决的问题。
技术实现思路
为了解决现有技术存在的技术问题,本申请提供一种文档主题确定方法及装置,实现确定文档主题的目的。本申请提供了一种文档主题确定方法,预先根据LabeledLDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。可选的,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。可选的,所述每个训练文档的概率均为1。可选的,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。本申请实施例提供了一种文档主题确定装置,所述装置包括:训练单元、获取单元、第一查找单元、第二查找单元、条件概率确定单元和主题确定单元;其中,所述训练单元,用于预先根据LabeledLDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述获取单元,用于获取待确定主题的目标文档,以及所述目标文档中的目标单词;所述第一查找单元,用于从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;所述第二查找单元,用于从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;所述条件概率确定单元,用于根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;所述主题确定单元,用于根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。可选的,所述条件概率确定单元包括:第一条件概率确定子单元和第二条件概率确定子单元;其中,所述第一条件概率确定子单元,用于根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;所述第二条件概率确定子单元,用于根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。可选的,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。可选的,所述每个训练文档的概率均为1。可选的,所述主题确定单元,具体用于从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。本申请通过预先根据LabeledLDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合。然后,获取待确定主题的目标文档,以及所述目标文档中的目标单词。从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,从所述单词概率集合中,查找所述目标单词对应的词频。接着,根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率。最后根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题,实现了对目标文档的主题的确定。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请实施例一提供的一种文档主题确定方法的流程本文档来自技高网...
一种文档主题确定方法及装置

【技术保护点】
一种文档主题确定方法,其特征在于,预先根据Labeled LDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词‑标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词‑标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词‑标签”条件概率集合中,查找所述目标单词对应的“单词‑标签”条件概率,所述目标单词对应的“单词‑标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;根据目标单词对应的“单词‑标签”条件概率和词频,得到所述目标文档对应的“标签‑目标文档”条件概率,所述“标签‑目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;根据所述目标文档对应的“标签‑目标文档”条件概率确定所述目标文档的主题。...

【技术特征摘要】
1.一种文档主题确定方法,其特征在于,预先根据LabeledLDA模型对训练文档集合、训练单词集合和标签集合进行训练,得到“单词-标签”条件概率集合,根据所述训练单词集合得到单词概率集合;所述训练文档集合为训练文档的集合,所述训练文档为携带有标签的文档,所述训练单词集合为根据所述训练文档得到的训练单词的集合,所述标签集合为所述标签的集合;所述“单词-标签”条件概率集合中包括在所述标签集合中随机选择的标签分别为各个标签的条件下,各个训练单词在语义上分别表达所述各个标签的概率;所述单词概率集合包括每个训练单词分别在所述训练单词集合中的词频;所述方法包括:获取待确定主题的目标文档,以及所述目标文档中的目标单词;从所述“单词-标签”条件概率集合中,查找所述目标单词对应的“单词-标签”条件概率,所述目标单词对应的“单词-标签”条件概率包括在所述标签集合中随机选择的标签分别为各个标签的条件下,所述目标单词在语义上分别表达所述各个标签的概率;从所述单词概率集合中,查找所述目标单词对应的词频,所述目标单词对应的词频为所述目标单词在所述训练单词集合中的词频;根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率,所述“标签-目标文档”条件概率为在随机选择的文档为目标文档的条件下,所述各个标签是所述目标文档的标签的概率;根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题。2.根据权利要求1所述的方法,其特征在于,所述根据目标单词对应的“单词-标签”条件概率和词频,得到所述目标文档对应的“标签-目标文档”条件概率包括:根据所述目标单词对应的“单词-标签”条件概率、所述目标单词的词频和每个标签的概率,得到每个标签的对应的“标签-单词”条件概率,所述“标签-单词”条件概率为在所述训练集合中随机选择的训练单词为所述目标单词的条件下,所述目标单词在语义上分别表达所述每个标签的概率;根据所述每个标签的“标签-单词”条件概率得到所述目标文档对应的“标签-目标文档”条件概率。3.根据权利要求2所述的方法,其特征在于,所述每个标签的概率根据每个训练文档对应的“标签-文档”条件概率和每个训练文档的概率得到;所述“标签-文档”条件概率包括在所述训练文档集中随机选取各个训练文档的条件下,所述各个标签分别是所述各个训练文档的标签的概率。4.根据权利要求3所述的方法,其特征在于,所述每个训练文档的概率均为1。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述目标文档对应的“标签-目标文档”条件概率确定所述目标文档的主题包括:从所述目标文档对应的所有的“标签-目标文档”条件概率中,选择最大的条件概率对应的标签确定为所述目标文档的主题。6.一种文档主题确定装置,其特征在于,所述装置包括:训练单元、获取单元、第一查找单元、第二查找单元、...

【专利技术属性】
技术研发人员:赵耕弘张霞赵立军崔朝辉
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1