一种跨领域文档相似度计算方法及装置制造方法及图纸

技术编号:11637697 阅读:66 留言:0更新日期:2015-06-24 12:24
本发明专利技术公开了一种跨领域文档相似度计算方法及装置,该方法包括:存储不同领域文档和不同领域任意两个文档间的关系;将不同领域文档进行分词和去停用词处理,得到不同领域文档的词汇数据集;根据不同领域任意两个文档间的关系构建不同领域文档间的关联矩阵;根据词汇数据集,获得不同领域文档的话题聚类;根据关联矩阵和话题聚类,获得话题聚类中任意一个话题在任意一个文档中出现的概率和任意一个话题针对任意两个不同领域匹配的权重;根据话题聚类中任意一个话题在不同领域任意两个文档中出现的概率和任意一个话题针对任意两个文档所在领域匹配的权重,计算任意两个文档间的相似度。本发明专利技术实施例,可以提高跨领域文档间相似度的准确度。

【技术实现步骤摘要】

本专利技术涉及通信
,具体涉及一种跨领域文档相似度计算方法及装置
技术介绍
用户在检索文档时,有时需要检索与其匹配的其它领域的文档。目前,主要有两种 跨领域文档匹配的方式,方式一是:根据不同领域文档中语句的文本字符串的相似度进行 不同领域文档匹配;方式二是:统计不同领域文档中词汇的相似度,并根据不同领域文档 中用词的相似性进行不同领域文档匹配。 在方式一中,由于不同文档中对同一事情的描述在语句上不一定相同,而在不同 领域文档中对同一事情的描述在语句上的差距更大,因此,用字符串的相似度无法正确进 行跨领域文档匹配。上述方式二是根据统计的不同领域文档的词汇相似度进行不同领域文 档匹配,但是由于不同领域文档中对同一事情的描述在用词上差距很大,因此,仅仅根据词 汇的相似度不能准确的进行文档的匹配。
技术实现思路
本专利技术实施例公开了一种跨领域文档相似度计算方法及装置,用于提高跨领域文 档间相似度的准确度,以便根据相似度提高跨领域文档间匹配的准确度。 本专利技术实施例第一方面提供一种跨领域文档相似度计算方法,包括: 存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不 同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确 定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系; 将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档 的词汇数据集; 根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联 矩阵; 根据所述词汇数据集,获得所述不同领域的文档的话题聚类; 根据所述关联矩阵和所述话题聚类,获得所述话题聚类中任意一个话题在任意一 个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重; 根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以 及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档 间的相似度。 在本专利技术实施例第一方面的第一种可能的实现方式中,所述将所述不同领域的文 档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集,包括: 将所述不同领域的文档分别进行分词和去停用词处理,分别得到所述不同领域文 档对应的词汇数据包; 将所述词汇数据包存储在一起得到所述不同领域的文档的词汇数据集。 在本专利技术实施例第一方面的第二种可能的实现方式中,所述根据所述话题聚类中 任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述 任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度,包括: 将所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率相乘, 获得概率积; 将所述概率积乘以所述任意一个话题针对所述任意两个文档所在领域匹配的权 重,得到所述任意两个文档针对所述任意一个话题的相似度; 将所述任意两个文档针对所述话题聚类中每一个话题的相似度进行累加,得到所 述任意两个文档间的初始相似度; 将所述任意两个文档间的所述初始相似度进行归一化处理,得到所述任意两个文 档间的相似度。 结合本专利技术实施例第一方面或本专利技术实施例第一方面的第一种可能的实现方式, 在本专利技术实施例第一方面的第三种可能的实现方式中,所述根据所述话题聚类中任意一个 话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个 文档所在领域匹配的权重,计算所述任意两个文档间的相似度之后,所述方法还包括: 将任意一个文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度 排序,所述相应文档与所述任意一个文档所在领域不同; 在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为 与所述任意一个文档匹配的相应文档间的相似度; 将所述选取的相似度存储为与所述任意一个文档匹配的相应文档间的相似度列 表。 结合本专利技术实施例第一方面的第三种可能的实现方式,在本专利技术实施例第一方面 的第四种可能的实现方式中,所述将所述选取的相似度存储为与所述任意一个文档匹配的 相应文档间的相似度列表之后,所述方法还包括: 检测用户输入的检索文档; 判断所述检索文档是否在所述不同领域的文档内; 若是,则从所述存储的相似度列表中查询与所述检索文档匹配的相应文档间的相 似度列表; 根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档 匹配的相应文档的文档列表。 结合本专利技术实施例第一方面的第四种可能的实现方式,在本专利技术实施例第一方面 的第五种可能的实现方式中,所述方法还包括: 若所述检索文档不在所述不同领域的文档内,则统计所述检索文档中与所述话题 聚类中任意一个话题相关的词语出现的概率; 根据所述任意一个话题相关的词语出现的概率,计算所述任意一个话题在所述检 索文档中出现的概率; 根据所述任意一个话题在所述检索文档中出现的概率、所述任意一个话题在任意 一个相应文档中出现的概率,以及所述任意一个话题针对所述检索文档所在领域与所述任 意一个相应文档所在领域匹配的权重,计算所述检索文档与所述任意一个相应文档间的相 似度。 结合本专利技术实施例第一方面的第五种可能的实现方式,在本专利技术实施例第一方面 的第六种可能的实现方式中,所述根据所述任意一个话题在所述检索文档中出现的概率、 所述任意一个话题在任意一个相应文档中出现的概率,以及所述任意一个话题针对所述检 索文档所在领域与所述任意一个相应文档所在领域匹配的权重,计算所述检索文档与所述 任意一个相应文档间的相似度之后,所述方法还包括: 将所述检索文档与相应文档间的相似度按照相似度从高到低的顺序进行相似度 排序; 在所述相似度排列中从最高的相似度开始,选取大于等于预设阈值的相似度作为 与所述检索文档匹配的相应文档间的相似度; 将所述选取的相似度存储为与所述检索文档匹配的相应文档间的相似度列表; 根据所述与所述检索文档匹配的相应文档间的相似度列表,输出与所述检索文档 匹配的相应文档的文档列表。 本专利技术实施例第二方面提供一种跨领域文档相似度计算装置,包括: 第一存储单元,用于存储不同领域的文档,以及存储不同领域的任意两个文档间 的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确 定的匹配关系或未确定的匹配关系,所述确当前第1页1 2 3 4 本文档来自技高网...
一种跨领域文档相似度计算方法及装置

【技术保护点】
一种跨领域文档相似度计算方法,其特征在于,包括:存储不同领域的文档,以及存储不同领域的任意两个文档间的关系;其中,所述不同领域的任意两个文档间的关系用于描述所述任意两个文档间的确定的匹配关系或未确定的匹配关系,所述确定的匹配关系包括已知的匹配关系或已知的非匹配关系;将所述不同领域的文档分别进行分词和去停用词处理,得到所述不同领域的文档的词汇数据集;根据所述不同领域的任意两个文档间的关系构建所述不同领域的文档间的关联矩阵;根据所述词汇数据集,获得所述不同领域的文档的话题聚类;根据所述关联矩阵和所述话题聚类,获得所述话题聚类中任意一个话题在任意一个文档中出现的概率,以及所述任意一个话题针对任意两个不同领域匹配的权重;根据所述话题聚类中任意一个话题在不同领域的任意两个文档中出现的概率,以及所述任意一个话题针对所述任意两个文档所在领域匹配的权重,计算所述任意两个文档间的相似度。

【技术特征摘要】

【专利技术属性】
技术研发人员:王靓伟梁颖琪杨洋
申请(专利权)人:华为技术有限公司清华大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1