一种跨领域文档相似度计算方法及装置制造方法及图纸

技术编号：11637697 阅读：66 留言：0更新日期：2015-06-24 12:24

本发明专利技术公开了一种跨领域文档相似度计算方法及装置，该方法包括：存储不同领域文档和不同领域任意两个文档间的关系；将不同领域文档进行分词和去停用词处理，得到不同领域文档的词汇数据集；根据不同领域任意两个文档间的关系构建不同领域文档间的关联矩阵；根据词汇数据集，获得不同领域文档的话题聚类；根据关联矩阵和话题聚类，获得话题聚类中任意一个话题在任意一个文档中出现的概率和任意一个话题针对任意两个不同领域匹配的权重；根据话题聚类中任意一个话题在不同领域任意两个文档中出现的概率和任意一个话题针对任意两个文档所在领域匹配的权重，计算任意两个文档间的相似度。本发明专利技术实施例，可以提高跨领域文档间相似度的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信
，具体涉及一种跨领域文档相似度计算方法及装置。
技术介绍
用户在检索文档时，有时需要检索与其匹配的其它领域的文档。目前，主要有两种跨领域文档匹配的方式，方式一是：根据不同领域文档中语句的文本字符串的相似度进行不同领域文档匹配；方式二是：统计不同领域文档中词汇的相似度，并根据不同领域文档中用词的相似性进行不同领域文档匹配。在方式一中，由于不同文档中对同一事情的描述在语句上不一定相同，而在不同领域文档中对同一事情的描述在语句上的差距更大，因此，用字符串的相似度无法正确进行跨领域文档匹配。上述方式二是根据统计的不同领域文档的词汇相似度进行不同领域文档匹配，但是由于不同领域文档中对同一事情的描述在用词上差距很大，因此，仅仅根据词汇的相似度不能准确的进行文档的匹配。
技术实现思路
本专利技术实施例公开了一种跨领域文档相似度计算方法及装置，用于提高跨领域文档间相似度的准确度，以便根据相似度提高跨领域文档间匹配的准确度。本专利技术实施例第一方面提供一种跨领域文档相似度计算方法，包括：存储不同领域的文档，以及存储不同领域的任意两个文档间的关系；其中，所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系，所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系；将所述不同领域的文档分别进行分词和去停用词处理，得到所述不同领域的文档的词汇数据集；根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵；根据所述词汇数据集，获得所述不同领域的文档...
一种跨领域文档相似度计算方法及装置

【技术保护点】
一种跨领域文档相似度计算方法，其特征在于，包括：存储不同领域的文档，以及存储不同领域的任意两个文档间的关系；其中，所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系，所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系；将所述不同领域的文档分别进行分词和去停用词处理，得到所述不同领域的文档的词汇数据集；根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵；根据所述词汇数据集，获得所述不同领域的文档的话题聚类；根据所述关联矩阵和所述话题聚类，获得所述话题聚类中任意一个话题在任意一个文档中出现的概率，以及所述任意一个话题针对任意两个不同领域匹配的权重；根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率，以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重，计算所述任意两个文档间的相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员：王靓伟，梁颖琪，杨洋，
申请(专利权)人：华为技术有限公司，清华大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人