在语料库中测量数字概念值的相似性制造技术

技术编号:27935648 阅读:53 留言:0更新日期:2021-04-02 14:15
提供了一种用于测量语料库中的数字概念值的相似性的方法、计算机系统和计算机程序产品。实施例可以包括检索与语料库中的概念相关联的数值。实施例还可包括将数值转换为标准单位。该实施例可以进一步包括计算转换后的数值的分布值。实施例还可包括基于分布值确定公差值,其中公差值是两个数值之间的最大允许距离。实施例可以进一步包括基于所确定的公差值来确定距离函数,其中,通过将两个数值之间的差除以所确定的公差值来定义距离函数。实施例还可以包括计算数值之间的相似性距离。

【技术实现步骤摘要】
在语料库中测量数字概念值的相似性
本专利技术通常涉及计算领域,并且更具体地涉及文档相似性分析。
技术介绍
文档相似性分析通常涉及使用统计方法提取文档向量来整体上表示文档。向量由文档中包含的统计上最重要的单词组成。当特定主题是比较两个不同文档的主要因素时,也可以分析文档中包含的词汇以获得文档向量。词汇或术语的重要性通常根据其在整个数据集中的频率来加权。在提取文档向量之后,该信息作为元数据存储在数据库中,以便相似性分析可以对不同文档的向量进行比较。余弦相似性是信息检索中实值向量的常用相似性测量,用于对不同文档的相似性进行评分。如今,在机器学习中,常见的内核功能(例如径向基函数(RBF)内核)通常可用于支持向量机分类。
技术实现思路
根据一个实施例,提供了一种用于测量语料库中数值概念值的相似性的方法、计算机系统和计算机程序产品。实施例可以包括检索与语料库中的概念相关联的数值。实施例还可以包括将数值转换为标准单位。实施例还可以包括计算转换后的数值的分布值。实施例还可以包括基于分布值确定公差值,其中公差值是两个数值之间的最大允许距离。本文档来自技高网...

【技术保护点】
1.一种用于测量语料库中数字概念值的相似性的处理器实现的方法,该方法包括:/n检索与语料库中的概念相关的数值;/n将所述数值转换为标准单位;/n计算所转换的数值的分布值;/n基于所述分布值确定公差值,其中所述公差值是两个数值之间的最大允许距离;/n基于所确定的公差值确定距离函数,其中通过将两个数值之间的差除以所确定的公差值来定义所述距离函数;以及/n计算所述数值之间的相似性距离。/n

【技术特征摘要】
20190917 US 16/573,1641.一种用于测量语料库中数字概念值的相似性的处理器实现的方法,该方法包括:
检索与语料库中的概念相关的数值;
将所述数值转换为标准单位;
计算所转换的数值的分布值;
基于所述分布值确定公差值,其中所述公差值是两个数值之间的最大允许距离;
基于所确定的公差值确定距离函数,其中通过将两个数值之间的差除以所确定的公差值来定义所述距离函数;以及
计算所述数值之间的相似性距离。


2.如权利要求1所述的方法,其中分布值包括分布计算,其中所述分布计算从包括以下的组中选择:平均值、中位值和标准偏差。


3.如权利要求1所述的方法,还包括:
在确定所述相似性距离时,基于与概念相关联的多个数值来确定置信评分。


4.如权利要求1所述的方法,还包括:
当两个不同的概念在语料库中具有相同的父级时,比较所述两个不同的概念的值。


5.如权利要求1所述的方法,还包括:
向语料库中添加新文档时,更新分...

【专利技术属性】
技术研发人员:KG克里斯蒂安森EL厄本巴赫KA凯里斯TA麦考伊
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1