确定文本主题相关度的方法、装置及终端设备制造方法及图纸

技术编号:17994598 阅读:71 留言:0更新日期:2018-05-19 11:47
本发明专利技术实施例提供了一种确定文本主题关联度的方法、装置及终端设备,其中,确定文本主题关联度的方法,包括:根据预设处理方式,对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理,第一文献信息为第一文本资源对应的文献信息,第二文献信息为第二文本资源对应的文献信息;通过预设的实体‑主题模型,分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息,得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题;基于第三预设个数的第一词汇主题与第四预设个数的第二词汇主题,确定第一文本资源与第二文本资源的主题关联强度。能够确定存在异构性的文本资源之间的主题关联度。

Method, device and terminal device for determining relevance of text subject

An embodiment of the present invention provides a method, a device and a terminal device for determining the relevance of a text theme, in which a method for determining the relevance of a text topic includes: preprocessing the first bibliographic information obtained from the first number of presuppositions and the second bibliographic information of the second preset number according to a presupposed processing method. The first document information is the document information corresponding to the first text resource, and the second document information is the document information corresponding to the second text resources, and the subject information is extracted from the pre processed first document information and the pre processed second document information, and the corresponding third presuppositions are obtained by the presupposed entity theme model. The first lexical topic of a number and the second lexical topic of the fourth presupposition number; the subject of the first vocabulary of the third presupposition number and the second vocabulary subject of the fourth presupposition number, determine the intensity of the theme Association of the first text resource and the second text resource. It can determine the topic relevance between heterogeneous resources.

【技术实现步骤摘要】
确定文本主题相关度的方法、装置及终端设备
本专利技术涉及数据挖掘与分析
,具体而言,本专利技术涉及一种确定文本主题相关度的方法、装置及终端设备。
技术介绍
文本型信息资源是指以文字的方式记录在各种载体上的知识和信息资源,它包括图书、期刊、报纸、专利、标准、会议录、政府出版物、学位论文、政策文件、产品资料、科技报告、网页以及科技档案等。尽管这些信息资源具有传递知识、积累经验、交流思想与感情以及提供科学情报等共性功能,但是每种信息资源还有各自独特的功能,从而导致这些信息资源在表述、目的、质量、颗粒度等方面存在异构性。比如,期刊、会议录和学位论文通常被用于测度基础科学研究活动的水平,而专利被用于测度产业技术的创新水平;政策文件和政府出版物一般比较宏观,颗粒度比较粗,而期刊、专利和学位论文等资源一般比较微观,颗粒度比较细。任何领域通常都会涉及多种类型的信息资源,每种资源被认为从不同视角对该领域进行刻画,如果可以将多种信息资源进行深度融合分析,将能够更加全面地反映相应领域的全貌。然而,由于各种资源间存在的异构性,使得文本型信息资源的深度有机融合分析变得极为困难,于是,如何有效地确定或分析某一领域的任意两种文本型信息资源之间的主题关联度,成为本领域技术人员面临的一个技术难题。
技术实现思路
本专利技术的目的旨在至少能解决上述的技术缺陷之一,特别是无法确定某一领域的任意两种文本型信息资源之间的主题关联度的技术缺陷。本专利技术的实施例根据一个方面,提供了一种确定文本主题关联度的方法,包括:根据预设处理方式,对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理,所述第一文献信息为第一文本资源对应的文献信息,所述第二文献信息为第二文本资源对应的文献信息;通过预设的实体-主题模型,分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息,得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题;基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述预设处理方式包括以下至少一项:句子切分;分词;命名实体提取;停用词过滤。优选地,预设的实体-主题模型包括以下任一项:条件独立潜狄利克雷分配模型CI-LDA;对应潜狄利克雷分配模型1CorrLDA1;对应潜狄利克雷分配模型2CorrLDA2;开关潜狄利克雷分配模型SwitchLDA;纳入类别的对应潜狄利克雷分配模型2CCorrLDA2。优选地,若所述预设的实体-主题模型为所述CCorrLDA2,所述基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:基于预设模型推断方法,通过所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,估计所述CCorrLDA2的模型参数;根据预设聚类方法,对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类,得到对应的词项聚簇与实体聚簇;基于所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述预设聚类方法包括以下任一种:布朗聚类法;词嵌入法;谱特征对齐法。优选地,所述预设模型推断方法包括以下任一种:均值场变分法;马尔科夫蒙特卡洛采样;随机变分推断。优选地,所述基于所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:根据所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵;确定满足预设约束条件的所述距离矩阵的最小值;基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:根据所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源间的词汇主题的关联流矩阵;基于所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述基于所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:基于滤除大于预设距离阈值后的所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,在所述确定所述第一文本资源与所述第二文本资源的主题关联强度之后,还包括:基于预设展示方式,通过可视化界面展示所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述预设展示方式为关联强度图谱展示方式或二分图展示方式。本专利技术的实施例根据另一个方面,还提供了一种确定文本主题关联度的装置,包括:预处理模块,用于根据预设处理方式,对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理,所述第一文献信息为第一文本资源对应的文献信息,所述第二文献信息为第二文本资源对应的文献信息;主题提取模块,用于通过预设的实体-主题模型,分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息,得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇超主题;确定模块,用于基于所述第三预设个数的第一词汇超主题词汇主题与所述第四预设个数的第二词汇超主题词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述预设处理方式包括以下至少一项:句子切分;分词;命名实体提取;停用词过滤。优选地,预设的实体-主题模型包括以下任一项:条件独立潜狄利克雷分配模型CI-LDA;对应潜狄利克雷分配模型1CorrLDA1;对应潜狄利克雷分配模型2CorrLDA2;开关潜狄利克雷分配模型SwitchLDA;纳入类别的对应潜狄利克雷分配模型2CCorrLDA2。优选地,若所述预设的实体-主题模型为所述CCorrLDA2,所述确定模块包括估计子模块、聚类子模块与关联强度确定子模块;所述估计子模块,用于基于预设模型推断方法,通过所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,估计所述CCorrLDA2的模型参数;所述聚类子模块,用于根据预设聚类方法,对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类,得到对应的词项聚簇与实体聚簇;所述关联强度确定子模块,用于基于所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第一文本资源与所述第二文本资源的主题关联强度。优选地,所述预设聚类方法包括以下任一种:布朗聚类法;词嵌入法;谱特征对齐法。优选地,所述预设模型推断方法包括以下任一种:均值场变分法;马尔科夫蒙特卡洛采样;随机变分推断。优选地,所述关联强度确定子模块包括距离矩阵子单元、最小值确定子单元与第一确定子单元;所述距离矩阵确定子单元,用于根据所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵;所述最小值确定子单元,用于确定满足预设约束条件的所述距离矩阵的最小值;所述第一确定子单元,用于基于所述距离矩阵的最小值所对应的第一词汇主题与第本文档来自技高网...
确定文本主题相关度的方法、装置及终端设备

【技术保护点】
一种确定文本主题关联度的方法,其特征在于,包括:根据预设处理方式,对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理,所述第一文献信息为第一文本资源对应的文献信息,所述第二文献信息为第二文本资源对应的文献信息;通过预设的实体‑主题模型,分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息,得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题;基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。

【技术特征摘要】
1.一种确定文本主题关联度的方法,其特征在于,包括:根据预设处理方式,对获取到的第一预设个数的第一文献信息与第二预设个数的第二文献信息分别进行预处理,所述第一文献信息为第一文本资源对应的文献信息,所述第二文献信息为第二文本资源对应的文献信息;通过预设的实体-主题模型,分别从预处理后的第一文献信息及预处理后的第二文献信息中提取主题信息,得到对应的第三预设个数的第一词汇主题与第四预设个数的第二词汇主题;基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。2.根据权利要求1所述的方法,其特征在于,所述预设处理方式包括以下至少一项:句子切分;分词;命名实体提取;停用词过滤。3.根据权利要求1或2所述的方法,其特征在于,预设的实体-主题模型包括以下任一项:条件独立潜狄利克雷分配模型CI-LDA;对应潜狄利克雷分配模型1CorrLDA1;对应潜狄利克雷分配模型2CorrLDA2;开关潜狄利克雷分配模型SwitchLDA;纳入类别的对应潜狄利克雷分配模型2CCorrLDA2。4.根据权利要求3所述的方法,其特征在于,若所述预设的实体-主题模型为所述CCorrLDA2,所述基于所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:基于预设模型推断方法,通过所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题,估计所述CCorrLDA2的模型参数;根据预设聚类方法,对通过分词得到的词项及通过命名实体提取得到的命名实体分别进行聚类,得到对应的词项聚簇与实体聚簇;基于所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第一文本资源与所述第二文本资源的主题关联强度。5.根据权利要求4所述的方法,其特征在于,所述预设聚类方法包括以下任一种:布朗聚类法;词嵌入法;谱特征对齐法。6.根据权利要求4所述的方法,其特征在于,所述预设模型推断方法包括以下任一种:均值场变分法;马尔科夫蒙特卡洛采样;随机变分推断。7.根据权利要求4所述的方法,其特征在于,所述基于所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:根据所述模型参数、所述词项聚簇及所述实体聚簇,确定所述第三预设个数的第一词汇主题与所述第四预设个数的第二词汇主题间的距离矩阵;确定满足预设约束条件的所述距离矩阵的最小值;基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度。8.根据权利要求7所述的方法,其特征在于,所述基于所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:根据所述距离矩阵的最小值所对应的第一词汇主题与第二词汇主题,确定所述第一文本资源与所述第二文本资源间的词汇主题的关联流矩阵;基于所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度。9.根据权利要求8所述的方法,其特征在于,所述基于所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度,包括:基于滤除大于预设距离阈值后的所述关联流矩阵,确定所述第一文本资源与所述第二文本资源的主题关联强度。10.根据权利要求1-9任一项所述的方法,其特征在于,在所述确定所述第一文本资源与所述第二文本资源的主题关联强度之后,还包括:基于预设展示方式,通过可视化界面展示所述第一文本资源与所述第二文本资源的主题关联强度。11.根据权利要求10所述的方法,其特征在于,所述预设展示方式为关联强度图谱展示方式或二分图展示方式。12.一种确定文本主题关联度的装置,其特征在于,包括:预处理模块,用于根据预设处理方式,对获取到的第一预设...

【专利技术属性】
技术研发人员:徐硕翟东升赖永
申请(专利权)人:北京工业大学吉林大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1