文档检索辅助装置制造方法及图纸

技术编号:35770035 阅读:20 留言:0更新日期:2022-12-01 14:11
本发明专利技术的文档检索辅助装置对被用于对分析试样的数据的解析结果的解释的检索文档信息的作业进行援助,具备:信息获取部,从分析数据中获取确定分析对象物的信息即第1信息;信息受理部,受理用于检索在分析数据的解析结果的解释中所用的文档信息的信息即第2信息的输入;提取部,基于第1信息及第2信息,从存储有文档信息的数据库内的该文档信息所含的术语中,提取多个与分析数据的解析结果关联的术语即关联术语;分数计算部,对多个关联术语各自计算表示该关联术语与第1信息的关联性大小的关联性分数、表示该关联术语与第2信息的关联性大小的关联性分数;统计处理部,根据各关联术语的关联性分数求出该关联术语在统计性准确度的指标值。度的指标值。度的指标值。

【技术实现步骤摘要】
文档检索辅助装置


[0001]本专利技术涉及一种文档检索辅助装置。

技术介绍

[0002]在生物体内,受到饮食、药物、运动、各种压力等环境的影响,基因组以及蛋白质的活性发生变化。认为受到环境的影响的结果会反映在以生物体中的有机酸、氨基酸等低分子化合物为首的各种代谢物,因此通过分析生物体中的代谢物,得到与生物体功能有关的有价值的信息。对生物体中的代谢物进行全面测试并且对其结果进行解析的一系列的技术被称为代谢物组学(metabolomics)或者代谢物组(metabolome)解析,其被利用在疾病的诊断、制药、生物标记物的探索、与生活习惯、健康有关的研究等、医学、药学领域自不必说,也被利用在食品工学、代谢工学等工学领域、农学领域等广泛的领域中。
[0003]一般情况下,在代谢物组学中使用气相色谱质谱分析装置(GC/MS)或者液相色谱质谱分析装置(LC/MS)(以下,为色谱质谱分析装置),对血液(血清、血浆)、尿等生物体试样所包含的代谢物进行全面定性分析或者定量分析。通过使用规定的解析工具对由色谱质谱分析装置得到的分析数据进行统计解析,能够得到例如药剂投放的结果、变化的代谢物的列表、在确定的疾病患者中生物体中的含量增加或者减少的代谢物的列表(非专利文献1)。
[0004]若得到代谢物列表,则从医学、药学上解释该代谢物列表,推定代谢物与药剂的作用机理的关系、疾病的发病机制与代谢物的关系。为了解释代谢物列表,需要进行从报告有该领域中过去进行的研究结果的多篇文献中找出恰当的文献并解读的作业。
[0005]作为电子收录有这样的文献信息的代表性的数据库之一,有美国国家医学图书馆(National Library of Medicine:NLM)运营的数据库MEDLINE。例如,能够使用美国国家医学图书馆在Web上公开的检索引擎即PubMed的检索功能来检索收录于MEDLINE中的文献信息(参照非专利文献2)。
[0006]在收录于MEDLINE的文献中,对一篇文献赋予多个医学文献词库即MeSH(Medical Subject Heading:医学主题词表)的术语,以进行恰当的检索。MeSH被设定为能够统一检索具有相同含义的多个不同的医学术语,例如在包含表示“癌”的医学术语即“cancer”、“tumor”、“neoplasm”的文献中,赋予“neoplasms”作为MeSH术语。因此,通过以“neoplasms”为关键字进行检索,能够提取出包含表示“癌”的术语的全部的医学文献。
[0007]这样,通过使用MeSH术语可以统一检索收录于MEDLINE中的文献,但文献的量庞大,此外,即使是相同的医学领域的文献,在细分化的各个专业领域中,有时在文献中以不同的观点记述研究的结果。为了从这样的文献之中找出包含对于代谢物列表的解释有用的信息的文献,解释负责人需要恰当地设定包含MeSH术语的检索关键字。能否设定恰当的检索关键字取决于解释负责人的知识。
[0008]对此,存在以下解析装置:根据对包含分析对象物的生物体试样的测量数据进行解析得到的结果,获取确定该分析对象物的信息,基于该信息从存储有文档信息的数据库中提取与分析对象物关联的术语并且提示给用户(专利文献1)。通过使用由该解析装置提
示的关联术语作为关键字,即使解释负责人不具有充分的知识,也能够进行恰当的文献检索。
[0009]现有技术文献
[0010]专利文献
[0011]专利文献1:国际公开第WO2020/230704号
[0012]非专利文献
[0013]非专利文献1:Garuda Platform,确定非营利活动法人系统
·
生物学研究机构,[在线],[2021年5月13日检索],网络<http://www.garuda

alliance.org/about.html>
[0014]非专利文献2:PubMed,[在线],[2021年5月13日检索],网络<URL:https://www.ncbi.nlm.nih.gov/pubmed>

技术实现思路

[0015]专利技术要解决的技术问题
[0016]在上述解析装置中,若提取出多个关联术语,则将这些所有的关联术语同等地提示给用户。在该情况下,若以全部的关联术语为关键字来检索文献则会过于缩限,有可能产生漏检。另一方面,若针对全部的关联术语进行以所提示的关联术语中的一个为关键字来检索文献的作业,则能够消除漏检,但在该情况下,提取出的文献的数量变得过多。因此,用户虽然从提示的关联术语中选择1个或者多个关联术语作为关键字,但如果所选择的关联术语不恰当,则无法提取出对于解释有用的文献。
[0017]另外,在此以代谢物组学为例进行了说明,但在对脂类组学(脂质解析)、蛋白质组学(蛋白质解析)、基因组学(基因解析)或者作为综合性的解析方法的多组学等中解释分析数据的解析结果时也存在同样的问题。
[0018]本专利技术所要解决的技术问题在于,能够高效地提取出对包含分析对象物的试样的分析数据进行解析的结果的解释是有用的文献。
[0019]用于解决上述技术问题的方案
[0020]为了解决上述技术问题而完成的本专利技术的文档检索辅助装置,对检索文档信息的作业进行辅助,所述文档信息被利用于对使用分析装置对包含分析对象物的试料进行分析得到的数据的解析结果的解释,具备:
[0021]信息获取部,从所述分析数据获取确定该分析对象物的信息即第1信息;
[0022]信息受理部,受理用于检索所述分析数据的解析结果的解释所利用的文档信息的信息即第2信息的输入;
[0023]提取部,基于所述第1信息以及所述第2信息,从存储有文档信息的数据库内的该文档信息所包含的术语中,提取出多个与所述分析数据的解析结果关联的术语即关联术语;
[0024]分数计算部,针对多个所述关联术语的每一个,计算表示该关联术语与所述第1信息的关联性的大小的关联性分数、和表示所述关联术语与所述第2信息的关联性的大小的关联性分数;
[0025]统计处理部,根据各所述关联术语的关联性分数,求出该关联术语在统计性准确度的指标值。
[0026]专利技术效果
[0027]根据本专利技术,对于各个提取出的多个关联术语,根据其关联性分数求出统计性准确度的指标值。在本专利技术中,某关联术语的“统计性准确度的指标值”是表示该关联术语(并非)被偶然提取的可能性的统计性的值。因此,用户观察各关联术语的准确度的指标值,便能够判断应该使用哪个关联术语作为关键字,因此通过使用该关联术语,能够高效地检索出对于解析结果的解释有用的文献。
附图说明
[0028]图1是包含本专利技术的实施方式的文档检索辅助装置的信息提供系统的概要图。
[0029]图2是示出文档检索辅助装置的概略构成的框图。
[0030]图3是示出从分析数据中提取文献检索术语的处理的一例的说明图。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档检索辅助装置,对检索文档信息的作业进行辅助,所述文档信息被利用于对使用分析装置来对包含分析对象物的试料进行分析得到的数据的解析结果的解释,其特征在于,具备:信息获取部,从所述分析数据获取确定该分析对象物的信息即第1信息;信息受理部,受理用于检索所述分析数据的解析结果的解释中所利用的文档信息即第2信息的输入;提取部,基于所述第1信息以及所述第2信息,从存储有文档信息的数据库内的该文档信息所包含的术语中,提取出多个与所述分析数据的解析结果关联的术语即关联术语;分数计算部,针对多个所述关联术语的每一个,计算表示该关联术语与所述第1信息的关联性的大小的关联性分数、和表示所述关联术语与所述第2信息的关联性的大小的关联性分数;统计处理部,根据所述各关联术语的关联性分数,求出该关联术语在统计性准确度的指标值。2.根据权利要求1所述的文档检索辅助装置,其特征在于,所述统计处理部求出各关联术语的关联性分数的p值作为所述指标值。3.根据权利要求1所述的文档检索辅助装置,其特征在于,所述统计处理部使用多重比较校正来求出各关联术语的所述指标值。4.根据权利要求1所述的文档检索辅助装置,其特征在于,所述统计处理部求出各关联术语的关联性分数的FDR作为所述指标值。5.根据权利要求1所述的文档检索辅助装置,其特征在于,具备显示控制部,使所述多个关联术语以所述指标值为从大到小的顺序或者从小到大的顺序排列并显示于显示部。6.根据权利要求1所述的文档...

【专利技术属性】
技术研发人员:金泽慎司清水悟司松田史生
申请(专利权)人:国立大学法人大阪大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1