文档检索支援系统、方法及存储有程序的计算机可读介质技术方案

技术编号:36901693 阅读:16 留言:0更新日期:2023-03-18 09:21
本发明专利技术由训练数据获取部获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据。通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的训练数据,由构建部构建用于推定应该对文档文件分配的标签信息的标签推定模型。使用所构建的标签推定模型,由分配部对作为检索对象的多个文档文件分别分配标签信息。标签信息。标签信息。

【技术实现步骤摘要】
文档检索支援系统、方法及存储有程序的计算机可读介质


[0001]本专利技术涉及支援文档的检索的文档检索支援系统、文档检索支援方法以及存储有文档检索支援程序的计算机可读介质(Non

transitory computer readable medium)。

技术介绍

[0002]近年来,在互联网等中,电子化的文档被用于获取各种信息。使用者通过检索所希望的标签信息,能够选择并利用被分配了该标签信息的文档。
[0003]例如,在日本特开2018

195222号公报中记载的文档检索学习系统中,将由电子文档阅读器读入的内容显示在内容显示部上。当使用者利用鼠标等拖动选择内容内的字符串并点击检索按钮时,所选择的字符串被传送到搜索引擎。由此,通过互联网检索与所选择的字符串相关联的文档,并将检索结果的列表显示在WEB浏览器显示部上。
[0004]为了能够进行文档的检索,需要事先对作为检索对象的文档分配标签信息。然而,由于作为检索对象的文档数量庞大,因此进行标签信息的分配的作业者的负担较大。另外,标签信息的名称(label)并不限定于是统一的,大多根据每个作业者的不同而不同。因此,标签信息的分配、维护或整合会产生很大的成本。另外,在新创建的文档能够被检索之前需要相当长的时间。
[0005]也考虑使用AI(人工智能)推定文档的标签信息并自动分配。然而,在训练数据的数量不充足的情况下,无法以较高的精度推定标签信息。因此,为了使用AI对文档分配标签信息,需要大量的训练数据。因此,为了创建大量的训练数据,会产生很大的成本。

技术实现思路

[0006]本专利技术的目的在于,提供能够在抑制成本的增加的同时进行文档的检索的文档检索支援系统、文档检索支援方法以及存储有文档检索支援程序的计算机可读介质。
[0007](1)本专利技术的一个方面的文档检索支援系统具有:训练数据获取部,获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据;构建部,通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用由训练数据获取部获取的训练数据,构建用于推定应分配给文档文件的标签信息的标签推定模型;以及分配部,使用由构建部构建的标签推定模型,对作为检索对象的多个文档文件分别分配标签信息。
[0008]在该文档检索支援系统中,由于在Transformer型的机器学习模型中使用语料库预先进行学习,因此即使在训练数据数量较少的情况下,也能构建能够高精度地推定标签信息的标签信息推定模型。在该情况下,不需要获取大量的训练数据。因此,使用将作为检索对象的多个文档文件的一部分而不是全部的文档文件作为训练数据而构建的标签信息推定模型,从而能够对作为检索对象的多个文档文件分别分配标签信息。
[0009]根据该结构,使用者不需要进行对庞大数量的文档文件分配标签信息的作业。另外,在标签信息的标签中没有表现波动。因此,标签信息的分配、维护或者整合几乎不产生
成本。由此,能够在抑制成本的增加的同时进行文档的检索。另外,由于也能够对新创建的文档文件立即分配标签信息,因此也能够立即对新创建的文档文件进行检索。
[0010](2)训练数据表示作为解释变量的文档文件的内容与作为目标变量的分配给文档文件的标签信息之间的关系,标签推定模型也可以是通过Transformer型的机器学习模型基于训练数据学习文档文件的内容与对文档文件分配的标签信息之间的关系来构建的。在该情况下,能够容易地构建标签推定模型。
[0011](3)Transformer型的机器学习模型也可以是BERT(Bidirectional Encoder Representations from Transformers)。在该情况下,能够使机器学习模型容易地进行使用了语料库的学习。
[0012](4)文档检索支援系统还具有:创建部,创建标签信息一览表,该标签信息一览表表示应分配给作为检索对象的多个文档文件的标签信息的候补的列表;以及提取部,从作为检索对象的多个文档文件中提取一部分的文档文件,训练数据获取部也可以将由创建部创建的标签信息一览表中的任意一个标签信息分配给由提取部提取的一部分的文档文件,从而生成训练数据。在该情况下,能够根据从作为检索对象的多个文档文件中提取的一部分的文档文件容易地生成训练数据。
[0013](5)文档检索支援系统还可以具有:检索部,在由分配部对作为检索对象的多个文档文件分别分配了标签信息之后,接受字符串的输入,从作为检索对象的多个文档文件中检索与字符串匹配的文档文件,输出示出检索结果的结果画面。在该情况下,使用者通过输入所希望的字符串,能够容易地利用与该字符串匹配的文档文件。
[0014](6)由检索部输出的结果画面还显示与所检索的文档文件相关联的能够访问的标签信息,检索部也可以检索被分配了显示在结果画面上的标签信息中的由使用者选择的标签信息的文档文件,并输出示出检索结果的结果画面。在该情况下,使用者通过选择显示在结果画面上的所希望的标签信息,能够容易地利用被分配了该标签信息的文档文件。
[0015](7)能够访问的标签信息也可以包括被分配由检索部检索的文档文件的标签信息和与该标签信息属于同一层级的标签信息的候补。在该情况下,能够访问的标签信息能够容易地显示在结果画面上。
[0016](8)文档检索支援系统还具有:接受部,接受对分配给作为检索对象的多个文档文件中的任意一个文档文件的标签信息进行编辑的指示;以及编辑部,编辑向接受部指示的文档文件的标签信息,并编辑其他作为检索对象的文档文件的标签信息,分配部也可以将分配给文档文件的标签信息更新为由编辑部编辑的标签信息。根据该结构,即使在对文档文件分配了不适当的标签信息的情况下,也能够适当地修正分配给文档文件的标签信息。
[0017](9)编辑部也可以基于规定的阈值,选择性地编辑作为检索对象的文档文件的标签信息。在该情况下,能够基于阈值选择性地批量编辑多个文档文件的标签信息。
[0018](10)由检索部输出的结果画面还显示由使用者操作的GUI(Graphical User Interface:图形用户界面),接受部也可以通过操作GUI接受对分配给作为检索对象的多个文档文件中的任意一个文档文件的标签信息进行编辑的指示。在该情况下,使用者能够容易地指示对所希望的文档文件分配的标签信息的编辑。
[0019](11)编辑部也可以基于编辑结果对由构建部构建的标签推定模型进行更新。在该情况下,容易对文档文件分配适当的标签信息。
[0020](12)本专利技术的其他方面的文档检索支援方法包括以下步骤:获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据;通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用所获取的训练数据,构建用于推定应分配给文档文件的标签信息的标签推定模型;以及使用所构建的标签推定模型,对作为检索对象的多个文档文件分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档检索支援系统,其中,具有:训练数据获取部,获取对从作为检索对象的多个文档文件中提取的一部分的文档文件分配了标签信息的训练数据;构建部,通过在使用语料库预先进行了学习的Transformer型的机器学习模型中应用由所述训练数据获取部获取的所述训练数据,构建用于推定应分配给文档文件的标签信息的标签推定模型;以及分配部,使用由所述构建部构建的所述标签推定模型,对作为检索对象的多个文档文件分别分配标签信息。2.如权利要求1所述的文档检索支援系统,其中,所述训练数据表示作为解释变量的文档文件的内容和作为目标变量的分配给文档文件的标签信息之间的关系,所述标签推定模型是通过所述Transformer型的机器学习模型基于所述训练数据学习文档文件的内容和分配给文档文件的标签信息之间的关系而构建的。3.如权利要求1或2所述的文档检索支援系统,其中,所述Transformer型的机器学习模型是BERT。4.如权利要求1至3中任一项所述的文档检索支援系统,其中,还具有:创建部,创建标签信息一览表,该标签信息一览表表示应分配给作为检索对象的多个文档文件的标签信息的候补的列表;以及提取部,从作为检索对象的多个文档文件中提取一部分的文档文件,所述训练数据获取部将由所述创建部创建的所述标签信息一览表中的任意一个标签信息分配给由所述提取部提取的一部分的文档文件,从而生成所述训练数据。5.如权利要求1至4中任一项所述的文档检索支援系统,其中,还具有:检索部,在由所述分配部对作为检索对象的多个文档文件分别分配了标签信息之后,接受字符串的输入,从作为检索对象的多个文档文件中检索与所述字符串匹配的文档文件,并输出示出检索结果的结果画面。6.如权利要求5所述的文档检索支援系统,其中,由所述检索部输出的所述结果画面还显示与所检索的文档文件相关联的能够访问的标签信息,所述检索部检索被分配了显示在所述结果画面上的标签信息中的由使用者选择的标签信息的文档文件,并输出示出检索结果的所述结果画面。7.如权利要求6所述的文档检索支援系统,其中,所述能够访问的...

【专利技术属性】
技术研发人员:寺田万理粕渊清孝吉田明子梅原光规角谷祐辉
申请(专利权)人:株式会社斯库林集团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1