数据库制作装置以及检索系统制造方法及图纸

技术编号:23470973 阅读:22 留言:0更新日期:2020-03-06 12:55
本发明专利技术提供一种数据库制作装置以及检索系统,能够在提高有用性的同时制作数据库。数据处理服务器(2)从外部服务器(6)获取日语数据和外语数据,利用机器翻译将外语数据翻译成日语数据,从而制作机器翻译数据,并通过将机器翻译数据作为日语数据的一部分与其组合来制成混合数据,利用混合数据制成保存数据。

Database making device and retrieval system

【技术实现步骤摘要】
数据库制作装置以及检索系统
本专利技术涉及制作检索用的数据库的数据库制作装置等。
技术介绍
以往,作为数据库制作装置,已知有专利文献1(日本特开2011-48527号公报)所记载的数据库制作装置。在该数据库制作装置中,从日语的文本信息提取感性表现,使用制作完成的感性表现数据库,将感性信息和检索对象建立关联,由此来制作检索对象数据库。另外,作为数据库制作装置,已知有专利文献2(日本特开2010-272075号公报)所记载的数据库制作装置。在该数据库制作装置中,根据日语的文本信息,使用感性表现辞典以及感性表现提取规则提取感性表现,并使用感性向量辞典,针对每个检索对象生成感性信息,由此制作检索对象数据库。
技术实现思路
根据上述专利文献1以及专利文献2的数据库制作装置,只是根据日语的文本信息制作数据库,数据收集范围受到制约,因而存在数据库的有用性低的问题。其结果,检索数据库时的检索结果的有用性也下降。本专利技术是为了解决上述课题而完成的,其目的在于提供一种能够在提高有用性的同时制作数据库的数据库制作装置等。用于解决课题的手段为了实现上述目的,本专利技术的数据库制作装置的特征在于,具备:文本信息获取单元,通过对由规定媒介公开的公开信息实施规定的滤波处理,获取包含规定的第1语言作为文本的第1语言文本信息、以及包含规定的第1语言以外的一个以上的第2语言作为文本的第2语言文本信息作为与规定领域关联的文本信息;翻译文本信息制作单元,通过利用规定翻译方法将第2语言文本信息翻译成规定的第1语言来制作翻译文本信息;混合文本信息制作单元,通过将翻译文本信息作为第1语言文本信息的一部分与第1语言文本信息组合来制作混合文本信息;以及,数据库制作单元,在执行了从混合文本信息中提取感性信息的提取处理以及从混合文本信息中去除构成噪声的噪声信息的噪声去除处理之后,通过将感性信息与去除了噪声信息的混合文本信息建立关联,来制作检索用的数据库。根据该数据库制作装置,通过对由规定媒介公开的公开信息实施规定的滤波处理,获取包含规定的第1语言作为文本的第1语言文本信息、以及包含规定的第1语言以外的一个以上的第2语言作为文本的第2语言文本信息作为与规定领域关联的文本信息。另外,通过利用规定翻译方法将第2语言文本信息翻译成规定的第1语言来制作翻译文本信息,通过将翻译文本信息作为第1语言文本信息的一部分与第1语言文本信息组合来制作混合文本信息。并且,由于使用该混合文本信息来制作检索用的数据库,与专利文献1、2的情况不同,能够使用包含在由规定媒介公开的公开信息中的两个以上的语言作为文本的信息来制作数据库。由此,例如,在检索该数据库时,与专利文献1、2的情况相比,因能够检索更广泛的信息,能够提高数据库的有用性。而且,执行从混合文本信息提取感性信息的提取处理以及从混合文本信息中去除构成噪声的噪声信息的噪声去除处理。然后,通过将感性信息与去除了噪声信息的混合文本信息建立关联,来制作数据库。由此,例如,在检索该数据库时,能够在避免检索到构成噪声的信息的同时检索到合适的信息。由此,能够进一步提高数据库的有用性(需要说明的是,本说明书中的“规定媒介”包括TV、收音机和报纸等大众媒体、电子公告板、博客和SNS等网络媒体、多媒体)。在本专利技术中,优选的是,在噪声去除处理中,在混合文本信息中包含与规定领域关联的规定名词的情况下,连接在规定名词之后的词性是主格、宾格以及所有格的任一格助词以外的情况时,将包含规定名词的混合文本信息作为噪声信息将其去除。根据该数据库制作装置,在噪声去除处理中,在混合文本信息中包含与规定领域关联的规定名词的情况下,连接在规定名词之后的词性是主格、宾格以及所有格的任一格助词以外时,将包含规定名词的混合文本信息作为噪声信息将其去除。在该情况下,连接在规定名词之后的词性是主格、宾格以及所有格的任一格助词以外的情况时,该规定名词被用作名词以外的语言的一部分的可能性高。因此,能够避免包含这类容易混淆的语言的噪声信息混入数据库,从而能够进一步提高数据库的有用性。本专利技术的检索系统的特征在于,具备:上述数据库制作装置;存储数据库的数据库存储单元;检索单元,基于与规定领域关联的规定关键词检索存储在数据库存储单元中的数据库;区分单元,将检索单元的检索结果中的感性信息区分为多个分类的感性信息;以及,显示单元,将多个分类的感性信息以互不相同的颜色进行颜色区分来显示。根据该检索系统,基于与规定领域关联的规定关键词对数据库存储单元所存储的数据库进行检索,检索单元的检索结果中的感性信息被区分为多个分类的感性信息。并且,由于以互不相同的颜色显示多个分类的感性信息,检索系统的用户能够一眼掌握检索结果中的多个分类的感性信息,从而能够提高其便利性。本专利技术的检索系统的特征在于,具备:上述数据库制作装置;存储数据库的数据库存储单元;检索单元,基于与规定领域关联的规定关键词检索存储在数据库存储单元中的数据库;区分单元,将检索单元的检索结果中的感性信息区分为从最上位到最下位的多个阶段的分类的感性信息;以及,显示单元,按从最上位到最下位的顺序阶段性地显示多个阶段的分类的感性信息。根据该检索系统,基于与规定领域关联的规定关键词对数据库存储单元所存储的数据库进行检索,检索单元的检索结果中的感性信息被区分为从最上位到最下位的多个阶段的分类的感性信息。并且,按从最上位到最下位的顺序阶段性地显示多个阶段的分类的感性信息。这样,检索系统的用户能够以从最上位到最下位的顺序阶段性地参照检索结果中的感性信息,由此能够详细地研究检索结果中包含怎样的感性信息。本专利技术的检索系统的特征在于,具备:上述数据库制作装置;存储数据库的数据库存储单元;检索单元,基于规定检索期间检索存储在数据库存储单元中的数据库;以及,显示单元,在显示检索单元的检索结果中的多个感性信息的同时,当多个感性信息中的任一信息被选择时,显示与被选择的感性信息对应的关联词以及数据库的信息。根据该检索系统,基于规定检索期间检索数据库存储单元所存储的数据库,并显示检索单元的检索结果中的多个感性信息。然后,在多个感性信息中的任一信息被选择时,显示与被选择的感性信息对应的关联词以及数据库的信息。由此,检索系统的用户能够参照与被选择的感性信息对应的关联词以及数据库的信息,从而能够提高其便利性。附图说明图1是示意性地表示本专利技术的一实施方式所涉及的数据库制作装置以及检索系统的结构的图。图2是表示保存数据制作处理的流程图。图3是表示所获取的文本数据的一例的图。图4是表示日语数据的一例的图。图5是表示外语数据的一例的图。图6是表示不需要翻译的数据的一例的图。图7是表示翻译用数据的一例的图。图8是表示机器翻译数据的一例的图。图9是表示准日语数据的一例的图。图10是表示混合数据的一例的图。图11是表示不需要分析的数据的一例的图。图12是表示分析用数据的一例的图。图13是表示感性信息的大分类以本文档来自技高网...

【技术保护点】
1.一种数据库制作装置,其特征在于,具备:/n文本信息获取单元,其通过对由规定媒介公开的公开信息实施规定的滤波处理,获取包含规定的第1语言作为文本的第1语言文本信息、以及包含所述规定的第1语言以外的一个以上的第2语言作为文本的第2语言文本信息作为与规定领域关联的文本信息;/n翻译文本信息制作单元,其通过利用规定翻译方法将所述第2语言文本信息翻译成所述规定的第1语言来制作翻译文本信息;/n混合文本信息制作单元,其通过将所述翻译文本信息作为所述第1语言文本信息的一部分与所述第1语言文本信息组合来制作混合文本信息;以及,/n数据库制作单元,其在执行了从所述混合文本信息中提取感性信息的提取处理以及从所述混合文本信息中去除构成噪声的噪声信息的噪声去除处理之后,通过将所述感性信息与去除了所述噪声信息的所述混合文本信息建立关联,来制作检索用的数据库。/n

【技术特征摘要】
20180828 JP 2018-1593811.一种数据库制作装置,其特征在于,具备:
文本信息获取单元,其通过对由规定媒介公开的公开信息实施规定的滤波处理,获取包含规定的第1语言作为文本的第1语言文本信息、以及包含所述规定的第1语言以外的一个以上的第2语言作为文本的第2语言文本信息作为与规定领域关联的文本信息;
翻译文本信息制作单元,其通过利用规定翻译方法将所述第2语言文本信息翻译成所述规定的第1语言来制作翻译文本信息;
混合文本信息制作单元,其通过将所述翻译文本信息作为所述第1语言文本信息的一部分与所述第1语言文本信息组合来制作混合文本信息;以及,
数据库制作单元,其在执行了从所述混合文本信息中提取感性信息的提取处理以及从所述混合文本信息中去除构成噪声的噪声信息的噪声去除处理之后,通过将所述感性信息与去除了所述噪声信息的所述混合文本信息建立关联,来制作检索用的数据库。


2.根据权利要求1所述的数据库制作装置,其特征在于,
在所述噪声去除处理中,在所述混合文本信息中包含与所述规定领域关联的规定名词的情况下,连接在所述规定名词之后的词性是主格、宾格以及所有格的任一格助词以外的情况时,将包含所述规定名词的所述混合文本信息作为所述噪声信息将其去除。


3.一种检索系统,其特征在于,具备:
权利要求1所述的数据库制作装置;
存储所述数据库的数据库存储单元;
检索单元,其基于与所述规定领域关联的规定关键词检索存储在所述数据库存储单元中的所述数据库;
区分单元,其将所述检索单元的检索结果中的感性信息区分为多个分类的感性信息;以及,
显示单元,其将所述多个分类的感性信息以互不相同的颜色进行颜色区分来显示。


4.一种检索系统,其特征在于,具备:
权利要求1所述的数据库制作装置;
存储所述数据库的数据库存储单元;
检索单元,其基于与所述规定领域关联的规定关键词检索存储在所述数据库存储单元中的所述数据库;
区分单元,其将所述...

【专利技术属性】
技术研发人员:坂本大辅
申请(专利权)人:本田技研工业株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1