当前位置: 首页 > 专利查询>广州大学专利>正文

基于混合智能的话题表示模型构建方法及装置制造方法及图纸

技术编号:24685329 阅读:36 留言:0更新日期:2020-06-27 08:29
本发明专利技术公开了一种基于混合智能的话题表示模型构建方法及装置,包括先通过LDA模型获得用户文档集合D的文档‑话题矩阵和话题‑词项矩阵;然后计算D中的第j个词项W

Method and device of topic representation model based on Hybrid Intelligence

【技术实现步骤摘要】
基于混合智能的话题表示模型构建方法及装置
本专利技术涉及计算机科学与技术中的大数据处理、数据分析与挖掘
,特别涉及一种基于混合智能的话题表示模型构建方法及装置。
技术介绍
话题模型自出现以来就成为话题发现、多文档总结、词义识别与消歧、情感分析、信息检索等多个领域的主流技术,这些领域通过话题模型训练获取话题。目前使用最普遍的话题表示模型是LDA模型。LDA模型是一种话题模型,它假设每篇文档由k个话题组成,每个话题有一个固定的词项概率分布。LDA模型可以按照概率分布的形式给出文档集合中每篇文档的话题情况以及每个话题的词项分布情况。同时它是一种无监督学习算法,在训练时不需要手工标注训练集,需要的仅是文档集合以及指定话题的数量k。LDA模型目前在文本挖掘领域包括文本话题识别、文本分类以及文本相似度计算方面都有广泛应用。人们围绕LDA模型还做了很多改进工作,总体来说,主要是针对基于词项集合的话题表示具有可读性差、语义关联性弱等问题。为了使话题更容易被用户理解,如何选取代表性词项集合表示话题的问题也得到了更多关注,这也就是话题表示模型问题。由于话题表示模型属于典型的高级认知功能,在该领域的动态性、开放性等特点使得计算机智能很难达到人类的认知水平,目前的话题表示模型和算法都是以计算机为主,并未考虑如何在算法中引入人类智慧来提高算法准确率的问题。
技术实现思路
本专利技术的第一目的在于克服现有技术的缺点与不足,提供一种基于混合智能的话题表示模型构建方法,该方法能够选取具有更好区分性词项来代表话题,且有效结合了机器智能和人类智能,得到的话题表示模型精确度更高。本专利技术的第二目的在于提供一种基于混合智能的话题表示模型构建装置。本专利技术的第三目的在于提供一种存储介质。本专利技术的第四目的在于提供一种计算设备。本专利技术的第一目的通过下述技术方案实现:一种基于混合智能的话题表示模型构建方法,包括如下步骤:S1、针对用户文档集合D中的多篇文档,通过LDA模型得到每篇文档的话题分布和每个话题的词项分布,以此获得文档-话题矩阵L(D,T)和话题-词项矩阵L(T,W),T是由多个话题θ组成的向量,W表示词项;针对用户文档集合D中的多个词项,计算第j个词项Wj在所有话题中的外部权重H(W)outside和在所有调整中的人工调整权重H(W)HAI,j表示词项序号,1≤j≤n,n是词项的总数量;对于在话题θi下的文档集合D(θi),i表示序号,计算其中的词项Wj在话题θi中的内部权重H(Wj,θi)inside;S2、根据外部权重、人工权重和内部权重,计算在话题θi中的词项Wj的综合权重ω(Wj,θi);根据话题-词项矩阵L(T,W),通过LDA模型得到话题θi对应的LDA模型ρ(θi)LDA;S3、根据词项Wj的综合权重ω(Wj,θi),得到话题θi对应的词项分布敏感的话题表示模型ρdistribution(θi)=(ω(W1,θi),ω(W2,θi),...,ω(Wn,θi));S4、将话题θi的LDA模型和词项分布敏感的话题表示模型进行结合,生成基于词项分布敏感的LDA话题表示模型ρIDS-LDA(θi)。优选的,还包括:S5、通过LDA话题表示模型ρIDS-LDA(θi)输出话题θi的表示向量,并将表示向量加入到话题-词项矩阵L(T,W)中,得到ρIDS-LDA(θi)的话题-词项矩阵LIDS-LDA(T,W)。优选的,外部权重描述的是词项Wj在所有话题中分布的均匀情况,外部权重越大,词项分布越均匀,词项Wj就越不适合描述任何话题;人工调整权重描述的是在以往的人工调整过程中一个词项是否适合作为代表词项,人工调整权重越大,表示词项Wj越适合表示一个话题;词项Wj在不同话题下的外部权重H(W)outside和人工调整权重H(W)HAI都相同,外部权重H(W)outside通过外部权重计算公式计算得到:其中,k是话题的总数量;DFwj是话题θi下的文档集合中包含词项Wj的文档数量;DFw是语料库中包含词项Wj的文档总数量;人工调整权重H(W)HAI通过人工调整权重计算公式计算得到:其中,z是人工调整的总次数;x是人工调整的序号;mx是第x次人工调整;A(W,mx)是第x次人工调整中增加了词项W的话题数量;Na是人工调整中增加的词项总数量,D(W,mx)是第x次人工调整中删除了词项W的话题数量;Nd是人工调整中删除的词项总数量,优选的,内部权重描述的是词项Wj在指定话题内部分布的均匀情况,内部权重越大,词项分布越均匀,词项Wj就越适合描述话题;词项Wj在不同话题下有对应的内部权重H(Wj,θi)inside,内部权重的计算具体如下:对于在话题θi下的文档集合D(θi),统计文档集合D(θi)中的文档个数M;基于文档个数M,通过内部权重计算公式计算出文档集合D(θi)中的词项Wj在话题θi中的内部权重H(Wj,θi)inside:其中,M是在话题θi下的文档数量,即文档集合D(θi)中的文档数量;TFWi是词项Wj在第i个文档中的出现频率;TFW是词项Wj在文档集合D(θi)中的M个文档的出现频率总和。优选的,根据词项Wj的外部权重、人工权重和内部权重,通过综合权重计算公式计算出在话题θi中的词项Wj的综合权重ω(Wj,θi),综合权重计算公式如下:其中,e是自然底数。优选的,基于词项分布敏感的LDA话题模型ρIDS-LDA(θi)具体如下:ρIDS-LDA(θi)=p·ρLDA(θi)+(1-p)·ρdistribution(θi);其中,p∈(0,1)是一个线性参数,用于衡量ρLDA(θi)和ρdistribution(θi)之间的线性权重。本专利技术的第二目的通过下述技术方案实现:一种基于混合智能的话题表示模型构建装置,包括:第一矩阵生成模块,用于针对用户文档集合D中的多篇文档,通过LDA模型得到每篇文档的话题分布和每个话题的词项分布,以此获得文档-话题矩阵L(D,T)和话题-词项矩阵L(T,W),T是由多个话题θ组成的向量,W表示词项;外部权重计算模块,用于针对用户文档集合D中的多个词项,计算第j个词项Wj在所有话题中的外部权重H(W)outside,j表示词项序号,1≤j≤n,n是词项的总数量;人工调整权重计算模块,用于针对用户文档集合D中的多个词项,计算词项Wj在所有调整中的人工调整权重H(W)HAI;内部权重计算模块,用于针对话题θi下的文档集合D(θi),i表示序号,计算其中的词项Wj在话题θi中的内部权重H(Wj,θi)inside;综合权重计算模块,用于根据外部权重、人工权重和内部权重,计算在话题θi中的词项Wj的综合权重ω(Wj,θi);第一模型构建模块,用于根据话题-词项矩阵L(T,W),通过LDA模型得到话题θi对应的LDA模型ρ(θi)LDA;本文档来自技高网...

【技术保护点】
1.一种基于混合智能的话题表示模型构建方法,其特征在于,包括如下步骤:/nS1、针对用户文档集合D中的多篇文档,通过LDA模型得到每篇文档的话题分布和每个话题的词项分布,以此获得文档-话题矩阵L(D,T)和话题-词项矩阵L(T,W),T是由多个话题θ组成的向量,W表示词项;/n针对用户文档集合D中的多个词项,计算第j个词项W

【技术特征摘要】
1.一种基于混合智能的话题表示模型构建方法,其特征在于,包括如下步骤:
S1、针对用户文档集合D中的多篇文档,通过LDA模型得到每篇文档的话题分布和每个话题的词项分布,以此获得文档-话题矩阵L(D,T)和话题-词项矩阵L(T,W),T是由多个话题θ组成的向量,W表示词项;
针对用户文档集合D中的多个词项,计算第j个词项Wj在所有话题中的外部权重H(W)outside和在所有调整中的人工调整权重H(W)HAI,j表示词项序号,1≤j≤n,n是词项的总数量;
对于在话题θi下的文档集合D(θi),i表示序号,计算其中的词项Wj在话题θi中的内部权重H(Wj,θi)inside;
S2、根据外部权重、人工权重和内部权重,计算在话题θi中的词项Wj的综合权重ω(Wj,θi);
根据话题-词项矩阵L(T,W),通过LDA模型得到话题θi对应的LDA模型ρ(θi)LDA;
S3、根据词项Wj的综合权重ω(Wj,θi),得到话题θi对应的词项分布敏感的话题表示模型ρdistribution(θi)=(ω(W1,θi),ω(W2,θi),…,ω(Wn,θi));
S4、将话题θi的LDA模型和词项分布敏感的话题表示模型进行结合,生成基于词项分布敏感的LDA话题表示模型ρIDS-LDA(θi)。


2.根据权利要求1所述的基于混合智能的话题表示模型构建方法,其特征在于,还包括:S5、通过LDA话题表示模型ρIDS-LDA(θi)输出话题θi的表示向量,并将表示向量加入到话题-词项矩阵L(T,W)中,得到ρIDS-LDA(θi)的话题-词项矩阵LIDS-LDA(T,W)。


3.根据权利要求1所述的基于混合智能的话题表示模型构建方法,其特征在于,外部权重描述的是词项Wj在所有话题中分布的均匀情况,外部权重越大,词项分布越均匀,词项Wj就越不适合描述任何话题;
人工调整权重描述的是在以往的人工调整过程中一个词项是否适合作为代表词项,人工调整权重越大,表示词项Wj越适合表示一个话题;
词项Wj在不同话题下的外部权重H(W)outside和人工调整权重H(W)HAI都相同,外部权重H(W)outside通过外部权重计算公式计算得到:



其中,k是话题的总数量;DFwj是话题θi下的文档集合中包含词项Wj的文档数量;DFw是语料库中包含词项Wj的文档总数量;
人工调整权重H(W)HAI通过人工调整权重计算公式计算得到:



其中,z是人工调整的总次数;x是人工调整的序号;mx是第x次人工调整;A(W,mx)是第x次人工调整中增加了词项W的话题数量;Na是人工调整中增加的词项总数量,D(W,mx)是第x次人工调整中删除了词项W的话题数量;Nd是人工调整中删除的词项总数量,


4.根据权利要求1所述的基于混合智能的话题表示模型构建方法,其特征在于,内部权重描述的是词项Wj在指定话题内部分布的均匀情况,内部权重越大,词项分布越均匀,词项Wj就越适合描述话题;
词项Wj在不同话题下有对应的内部权重H(Wj,θi)inside,内部权重的计算具体如下:
对于在话题θi下的文档集合D(θi),统计文档集合D(θi)中的文档个数M;
基于文档个数M,通过内部权重计算公式计算出文档集合D(θi)中的词项Wj在话题θi中的内部权重H(Wj,θi)inside:



其中,M是在话题θi下的文档数量,即文档集合D(θi)中的文档数量;TFWi是词项Wj在第i个文档中的出现频率;TFW是词项Wj在文档集合D(θi)中的M个文档的出现频率总和。


5.根据权利要求1所述的基于混合智能的话题表示模型构建方法,其特征在于,根据词项Wj的外部权重...

【专利技术属性】
技术研发人员:韩伟红李树栋田志宏方滨兴殷丽华王乐顾钊铨仇晶李默涵
申请(专利权)人:广州大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1