相似度指标值计算装置、相似检索装置及相似度指标值计算用程序制造方法及图纸

技术编号:24767058 阅读:33 留言:0更新日期:2020-07-04 11:58
本发明专利技术具备:单词提取部(11),其对m个文本进行分析并提取n个单词;向量计算部(12),其通过使m个文本和n个单词分别在q个维度上向量化,从而计算由q个轴分量构成的m个文本向量和由q个轴分量构成的n个单词向量;以及指标值计算部(13),其通过分别获取m个文本向量和n个单词向量的内积而计算反映m个文本和n个单词之间的关联度的相似度指标值;通过计算根据文本而算出的文本向量和根据文本内包含的单词而算出的单词向量的内积,能够得到以内积值的形式表示哪个单词对哪个文本具有何等程度的贡献的相似度评价值。

Similarity index value calculation device, similarity retrieval device and similarity index value calculation program

【技术实现步骤摘要】
【国外来华专利技术】相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
本专利技术涉及相似度指标值计算装置、相似文本检索装置以及相似度指标值计算用程序,尤其涉及对含有多个单词的文本相关的相似度指标值进行计算的技术和使用该指标值进行相似检索的技术。
技术介绍
目前,广泛使用从数据库所存储的大量文本中检索与作为检索关键字(retrievalkey)而被输入的文本相似的其他文本的技术。在这种检索技术中,基本上形成为:针对各文本计算一些特征量,从而检索特征量相似的文本。已知有计算文本向量作为特征量之一的技术(例如,参照专利文献1、2)。在专利文献1公开的信息检索装置中,对检索应答文件进行分析并提取独立词,在得到的独立词中对被登录于向量生成用词典的独立词读出单词向量。然后,根据在整个文本中得到的所有单词向量而获取表示文本特征的文本向量,通过比较各文本向量而求出文本之间的距离,并使用该距离进行分类。专利文献2中公开的对应范畴检索系统是检索意思内容相近的日英文件对的检索系统,其对包含于学习数据中的所有日语文件和英语文件实施词素分析处理,并对由此而得到的所有日语单词和英语单词计算对应的多维度的单词向量。然后,计算文件向量、即将包含于各文件中的所有单词所对应的单词向量的总和标准化(向量长度设为“1”)后的文件向量,并通过日语文件对应的文件向量和英语文件对应的文件向量检索关联度最高(内积值大)的日英文件对。另外,还已知有描述了通过段落向量对文本或文件进行评价的论文(例如,参照非专利文献1)。在该非专利文献1公开的技术中也形成为:与上述专利文献1、2同样地对文本中包含的单词计算单词向量,并使用该单词向量来计算段落向量。专利文献1:日本特开平7-295994号公报专利文献2:日本特开2002-259445号公报非专利文献1:“DistributedRepresentationsofSentencesandDocuments”byQuocLeandTomasMikolov,GoogleInc,Proceedingsofthe31stInternationalConferenceonMachineLearningHeldinBejing,Chinaon22-24June2014(“句子和文档的分布式表示”,QuocLe、TomasMikolov,2014年6月22日至24日于中国北京举行的第31届机器学习国际会议论文集)上述专利文献1、2和非专利文献1中公开的技术均形成为以下构成:计算文本向量作为文本的特征量,通过比较各文本向量或计算各文本向量的内积而对文本进行分类或对相似文本进行检索。然而,仅使用文本向量作为指标的现有的相似度评价方法存在无法充分提高评价精度这一问题。这是因为文本是由多个单词的组合构成的,而哪个单词对哪个文本有何等程度的贡献并未被准确地评价。另外,上述专利文献1、2和非专利文献1中公开的文本向量均是通过使用了单词向量的规定计算而被算出的。然而,专利文献1中没有公开如何根据单词向量求出文本向量的具体方法。在专利文献2公开的技术中,由于仅是将文件中包含的所有单词所对应的单词向量的总和标准化而作为文件向量,因此文件中所使用的各单词的单词向量已经以总和形式进行了四舍五入。在非专利文献1公开的技术中,虽然在求取段落向量的过程中使用单词向量,但是单词向量本身并未作为评价文本或文件的指标被使用。
技术实现思路
本专利技术是为了解决上述问题而完成的,目的在于能够较之现有技术提高相似度的评价精度。为了解决上述课题,在本专利技术的相似度指标值计算装置中,对m个文本进行分析而从该m个文本中提取n个单词,并且,通过使m个文本分别按照规定的规则在q个维度上向量化而计算由q个轴分量构成的m个文本向量,同时通过使n个单词分别按照规定的规则在q个维度上向量化而计算由q个轴分量构成的n个单词向量。然后,通过分别获取m个文本向量和n个单词向量的内积,从而计算反映m个文本和n个单词之间的关联度的相似度指标值。在此,将针对m个文本和n个单词的所有组合计算准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,上述准确率是根据n个单词中的一个单词预测m个文本中的一个文本的准确率,或者是根据m个文本中的一个文本预测n个单词中的一个单词的准确率。(专利技术效果)根据上述构成的本专利技术,通过计算根据文本而算出的文本向量和根据包含于文本内的单词而算出的单词向量的内积,从而算出反映文本和单词之间的关联度的相似度评价值,因此,能够以内积值的形式得到哪个单词对哪个文本具有何等程度的贡献这一情况。因此,通过使用如上所述而得到的本专利技术的相似度指标值,能够较之现有技术提高相似度的评价精度。附图说明图1是表示本实施方式涉及的相似度指标值计算装置的功能结构例的框图。图2是表示本实施方式涉及的相似检索装置的功能结构例的框图。图3是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。图4是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。图5是表示本实施方式涉及的相似检索装置的其他功能结构例的框图。(符号说明)10…相似度指标值计算装置11…单词提取部12…向量计算部12A…文本向量计算部12B…单词向量计算部13…指标值计算部20、30、40、50…相似检索装置21、31…文本数据存储部22、52…检索关键字指定部23、33…相似文本检索部32…检索关键字获取部42…数据获取部具体实施方式以下,根据附图对本专利技术的一实施方式进行说明。图1是表示本实施方式涉及的相似度指标值计算装置的功能结构例的框图。本实施方式的相似度指标值计算装置10是输入文本相关的文本数据、计算并输出相似度指标值的装置,其中,相似度指标值反映文本与文本中所包含的单词之间的关联度。相似度指标值计算装置10构成为功能结构包括:单词提取部11、向量计算部12以及指标值计算部13。向量计算部12具备文本向量计算部12A和单词向量计算部12B,作为更加具体的功能结构。上述各功能块11~13可以由硬件、DSP(DigitalSignalProcessor:数字信号处理器)和软件中的任一种构成。例如,当由软件构成时,上述各功能块11~13实际上被构成为包括计算机的CPU(中央处理器)、RAM(随机存取存储器)和ROM(只读存储器)等,并且通过运行存储于RAM或ROM、硬盘或半导体存储器等记录介质中的程序而实现。单词提取部11分析m个(m为大于等于2的任意整数)文本,并从该m个文本中提取n个(n为大于等于2的任意整数)单词。在此,作为分析对象的文本可以由一个句子(利用句号划分的单位)构成,也可以由多个句子构成。由多个句子构成的文本可以是一个文件所包含的部分文本或全部文本。另外,作为文本的分析,例如能够使用公知的词素分析。在此,单词提取部本文档来自技高网
...

【技术保护点】
1.一种相似度指标值计算装置,其特征在于,具备:/n单词提取部,该单词提取部对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词;/n文本向量计算部,该文本向量计算部通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化,从而计算由q个轴分量构成的m个文本向量;/n单词向量计算部,该单词向量计算部通过使所述n个单词分别按照规定的规则在q个维度上向量化,从而计算由q个轴分量构成的n个单词向量;以及/n指标值计算部,该指标值计算部通过分别获取所述m个文本向量和所述n个单词向量的内积,从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值;/n所述文本向量计算部和所述单词向量计算部将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率,或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。/n

【技术特征摘要】
【国外来华专利技术】20171107 JP 2017-2143881.一种相似度指标值计算装置,其特征在于,具备:
单词提取部,该单词提取部对m(m为大于等于2的任意整数)个文本进行分析并从该m个文本中提取n(n为大于等于2的任意整数)个单词;
文本向量计算部,该文本向量计算部通过使所述m个文本分别按照规定的规则在q(q为大于等于2的任意整数)个维度上向量化,从而计算由q个轴分量构成的m个文本向量;
单词向量计算部,该单词向量计算部通过使所述n个单词分别按照规定的规则在q个维度上向量化,从而计算由q个轴分量构成的n个单词向量;以及
指标值计算部,该指标值计算部通过分别获取所述m个文本向量和所述n个单词向量的内积,从而计算反映所述m个文本和所述n个单词之间的关联度的相似度指标值;
所述文本向量计算部和所述单词向量计算部将针对所述m个文本和所述n个单词的所有组合算出准确率并进行合计后的值作为目标变量,并计算使该目标变量最大化的文本向量和单词向量,其中,所述准确率是根据所述n个单词中的一个单词预测所述m个文本中的一个文本的准确率,或者根据所述m个文本中的一个文本预测所述n个单词中的一个单词的准确率。


2.如权利要求1所述的相似度指标值计算装置,其特征在于,
所述指标值计算部通过获取文本矩阵和单词矩阵的积而计算以m×n个所述相似度指标值作为各要素的评价值矩阵,其中,所述文本矩阵以所述m个文本向量的各q个轴分量作为各要素,所述单词矩阵以所述n个单词向量的各q个轴分量作为各要素。


3.一种相似检索装置,其特征在于,具备:
权利要求1或2所述的相似度指标值计算装置;以及
相似文本检索部,该相似文本检索部在指定了所述m个文本中的一个文本作为检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与由所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。


4.如权利要求3所述的相似检索装置,其特征在于,
所述相似检索装置进而还具备文本数据存储部,该文本数据存储部将所述m个文本相关的文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储;
所述相似文本检索部在从所述文本数据存储部所存储的所述m个文本中指定了所述一个文本作为所述检索关键字的情况下,将该一个文本以外的m-1个其他文本作为检索对象,判断由所述一个文本所涉及的n个相似度指标值构成的检索关键字关联文本指标值组与所述m-1个其他文本所涉及的各n个相似度指标值构成的检索对象关联文本指标值组的相似度,并从所述m-1个其他文本中且是所述相似度高的文本中提取规定数量的文本作为检索结果。


5.如权利要求3所述的相似检索装置,其特征在于,
所述相似检索装置进而还具备:
文本数据存储部,该文本数据存储部将多个文本数据与通过所述相似度指标值计算装置算出的所述相似度指标值一起进行了存储,以及
检索关键字获取部,该检索关键字获取部获取作为所述检索关键字而被指定...

【专利技术属性】
技术研发人员:丰柴博义
申请(专利权)人:株式会社FRONTEO
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1