【技术实现步骤摘要】
【国外来华专利技术】相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
本专利技术涉及相似度指标值计算装置、相似文本检索装置以及相似度指标值计算用程序,尤其涉及对含有多个单词的文本相关的相似度指标值进行计算的技术和使用该指标值进行相似检索的技术。
技术介绍
目前,广泛使用从数据库所存储的大量文本中检索与作为检索关键字(retrievalkey)而被输入的文本相似的其他文本的技术。在这种检索技术中,基本上形成为:针对各文本计算一些特征量,从而检索特征量相似的文本。已知有计算文本向量作为特征量之一的技术(例如,参照专利文献1、2)。在专利文献1公开的信息检索装置中,对检索应答文件进行分析并提取独立词,在得到的独立词中对被登录于向量生成用词典的独立词读出单词向量。然后,根据在整个文本中得到的所有单词向量而获取表示文本特征的文本向量,通过比较各文本向量而求出文本之间的距离,并使用该距离进行分类。专利文献2中公开的对应范畴检索系统是检索意思内容相近的日英文件对的检索系统,其对包含于学习数据中的所有日语文件和英语文件实施词素分析处理,并对由此而得到的所有日语单词和英语单词计算对应的多维度的单词向量。然后,计算文件向量、即将包含于各文件中的所有单词所对应的单词向量的总和标准化(向量长度设为“1”)后的文件向量,并通过日语文件对应的文件向量和英语文件对应的文件向量检索关联度最高(内积值大)的日英文件对。另外,还已知有描述了通过段落向量对文本或文件进行评价的论文(例如,参照非专利文献1)。在该非专利文献1公开的技术 ...
【技术保护点】
1.一种相似度指标值计算装置,其特征在于,具备:/n单词提取部,该单词提取部对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词;/n文本向量计算部,该文本向量计算部通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化,从而计算由q个轴分量构成的m个文本向量;/n单词向量计算部,该单词向量计算部通过使所述n个单词分别按照规定的规则在q个维度上向量化,从而计算由q个轴分量构成的n个单词向量;以及/n指标值计算部,该指标值计算部通过分别获取所述m个文本向量和所述n个单词向量的内积,从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值;/n所述文本向量计算部和所述单词向量计算部将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率,或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。/n
【技术特征摘要】
【国外来华专利技术】20171107 JP 2017-2143881.一种相似度指标值计算装置,其特征在于,具备:
单词提取部,该单词提取部对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词;
文本向量计算部,该文本向量计算部通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化,从而计算由q个轴分量构成的m个文本向量;
单词向量计算部,该单词向量计算部通过使所述n个单词分别按照规定的规则在q个维度上向量化,从而计算由q个轴分量构成的n个单词向量;以及
指标值计算部,该指标值计算部通过分别获取所述m个文本向量和所述n个单词向量的内积,从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值;
所述文本向量计算部和所述单词向量计算部将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率,或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。
2.如权利要求1所述的相似度指标值计算装置,其特征在于,
所述指标值计算部通过获取文本矩阵和单词矩阵的积而计算以m×n个所述相似度指标值作为各要素的评价值矩阵,其中,所述文本矩阵以所述m个文本向量的各q个轴分量作为各要素,所述单词矩阵以所述n个单词向量的各q个轴分量作为各要素。
3.一种相似检索装置,其特征在于,具备:
权利要求1或2所述的相似度指标值计算装置;以及
相似文本检索部,该相似文本检索部在指定了所述m个文本中的一个文本作为检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。
4.如权利要求3所述的相似检索装置,其特征在于,
所述相似检索装置进而还具备文本数据存储部,该文本数据存储部将所述m个文本相关的文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储;
所述相似文本检索部在从所述文本数据存储部所存储的所述m个文本中指定了所述一个文本作为所述检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。
5.如权利要求3所述的相似检索装置,其特征在于,
所述相似检索装置进而还具备:
文本数据存储部,该文本数据存储部将多个文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储,以及
检索关键字获取部,该检索关键字获取部获取作为所述检索关键字而被指定...
【专利技术属性】
技术研发人员:丰柴博义,
申请(专利权)人:株式会社FRONTEO,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。