【技术实现步骤摘要】
一种基于主题的分类方法及装置
本专利技术实施例涉及信息分类领域,具体涉及一种基于主题的分类方法及装置。
技术介绍
随着信息技术的发展,对信息分类,尤其是对公司所属的类型进行分类显得尤为重要。现有技术通过分析处理信息的特征变量,实现对信息的分类,但是存在以下缺陷:(1)由于特征变量数量巨大,使得计算实现过程复杂;(2)特征变量的冗余性,以公司为例:某类公司可能会存在很多特征变量,这些特征变量之间存在相关或无关的特性,使得无法根据特征变量准确地确定该公司的主题分类。因此,如何解决上述的技术缺陷,并准确地确定公司的主题分类,成为亟须解决的问题。
技术实现思路
针对现有技术存在的问题,本专利技术实施例提供一种基于主题的分类方法及装置。第一方面,本专利技术实施例提供一种基于主题的分类方法,所述方法包括:获取公司信息;根据所述公司信息,获取与每个公司对应的特征词集合;根据所述特征词集合,构建包含有第一概率的似然度函数,其中,所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率;将使所述似然度函数达到最大值的第一概率作为目标第一概率,并获取每个公司的主题特征向量,所述主题特 ...
【技术保护点】
一种基于主题的分类方法,其特征在于,包括:获取公司信息;根据所述公司信息,获取与每个公司对应的特征词集合;根据所述特征词集合,构建包含有第一概率的似然度函数,其中,所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率;将使所述似然度函数达到最大值的第一概率作为目标第一概率,并获取每个公司的主题特征向量,所述主题特征向量包括所述目标第一概率;根据所述主题特征向量,计算每两个公司的相似度,并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。
【技术特征摘要】
1.一种基于主题的分类方法,其特征在于,包括:获取公司信息;根据所述公司信息,获取与每个公司对应的特征词集合;根据所述特征词集合,构建包含有第一概率的似然度函数,其中,所述第一概率为每个公司归属于K个主题分类中的一个分类m的概率;将使所述似然度函数达到最大值的第一概率作为目标第一概率,并获取每个公司的主题特征向量,所述主题特征向量包括所述目标第一概率;根据所述主题特征向量,计算每两个公司的相似度,并将所述相似度高于相似度阈值的每两个公司归属于同一主题分类。2.根据权利要求1所述的方法,其特征在于,所述似然度函数还包含第二概率;相应的,根据所述特征词集合,构建包含有第一概率和第二概率的似然度函数,包括:根据如下公式构建所述似然度函数:其中,为第一概率;θmj为第二概率、所述第二概率为主题分类为m的公司具有特征词j的概率;K为主题分类的总分类数;m为主题分类中的第m个主题分类;C为所有公司;i为所有公司C中的第i个公司;FC为第i个公司中的所有特征词;j为所有特征词FC中的第j个特征词。3.根据权利要求1所述的方法,其特征在于,所述根据所述主题特征向量,计算每两个公司的相似度,包括:根据如下公式计算每两个公司的相似度:其中,T1为第一个公司的主题特征向量,T2为第二个公司的主题特征向量,|T1|为第一个公司的主题特征向量值;|T2|为第二个公司的主题特征向量值。4.根据权利要求1或2或3所述的方法,其特征在于,所述方法还包括:若所述公司是由同一指定人作为高管和/或股东,则根据所述同一主题分类的分类结果,区分所述同一指定人。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若检测到与所述同一指定人同名的新公司,获取所述新公司的第一信息;根据所述第一信息,获取与所述新公司对应的新特征词集合;根据所述新特征词集合,计算每一主题分类的所有第二概率之和;将K个所述所有第二概率之和相加,以获得全部主题分类的第二概率总和;计算所述每一主题分类的所有第二概率之和与所述全部主题分类的第二概率总和的比值,并将所有的K个比值组成新公司的新主题...
【专利技术属性】
技术研发人员:张快,程浩,柳超,
申请(专利权)人:北京金堤科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。