当前位置: 首页 > 专利查询>IQVIA公司专利>正文

生命科学文档的自动分类和解释制造技术

技术编号:33908708 阅读:30 留言:0更新日期:2022-06-25 19:06
一种计算机实施的用于文档,诸如支持临床试验的生命科学文档,的自动分类和解释的工具,所述工具被配置为执行原始文本、文档结构和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类准确性。与传统的自动分类工具相比,分析的组合通过利用文本和图像元素之间的相对空间关系、识别元素的特征和格式,以及从文档中提取附加的元数据,为分类提供了上下文,其中应用自然语言处理(NLP)将文本与标记相关联,并识别协议之间相关的不同之处和相似之处。关的不同之处和相似之处。关的不同之处和相似之处。

【技术实现步骤摘要】
生命科学文档的自动分类和解释
[0001]相关申请的交叉引用
[0002]本申请是2020年10月14日提交的标题为“生命科学文档的自动分类和解释”的美国序列号17/070,533的部分继续申请,它是2019年3月1日提交标题为“生命科学文档的自动分类和解释”的美国序列号16/289,729的继续申请,现为美国专利号10,839,205,其全部内容通过引用并入本文。

技术介绍

[0003]自动分类通常用于有效地管理文档中的文本、图像和非结构化信息。自动分类也称为归类、聚类或文本分类,通常使文档能够基于一组预定义的种类或类别进行划分和组织,以快速且轻松地检索信息。

技术实现思路

[0004]一种计算机实施的工具,用于自动分类和解释文档(诸如支持临床试验的生命科学文档),被配置为执行文本、文档结构和图像分析的组合,以通过实现对文档内容的更全面的基于机器的理解来提高分类准确性。与传统的自动分类工具相比,该分析组合通过利用文本与图像元素之间的空间关系、识别元素的特征和格式以及从文档中提取附加的元数据,而为分类提供了上下文。r/>[0005]文本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算机实施的方法,用于对多个生命科学文档进行分类和解释,所述方法包括:接收多个生命科学文档的数字化表示,其中所述数字化表示包括多个文本和多个图像;对所述多个生命科学文档的所述数字化表示进行文本分析,其中所述文本分析包括分析原始文本而不考虑任何设置格式,并使用文本序列来提供关于所述原始文本的附加上下文;对所述多个生命科学文档的所述数字化表示进行结构分析,其中所述结构分析包括分析所述多个文本和所述多个图像的相对空间位置、分析元素特征以及分析上下文连接;对所述多个生命科学文档的所述数字化表示进行图像分析,其中所述图像分析包括识别所述生命科学文档中图像的位置,以及将图像应用到文本转换,以创建文本元素的数字化;从所述图像数据中收集关键元数据,其中利用自然语言处理(NLP)将相关文本与标记相关联,并识别协议之间的不同之处和相似之处,以及识别一个或多个修改所涉及的风险;根据文本分析、结构分析和图像分析,对所述多个生命科学文档进行分类;以及根据对所述多个生命科学文档的分类,用一个或多个类别标签对所述多个生命科学文档进行标记,其中所述一个或多个类别标签表示所述多个生命科学文档的一个类别和/或一个子类别。2.根据权利要求1所述的计算机实施的方法,其中,所述上下文连接包括保持紧接在所述文本信息之前和之后出现的元素与所述文本信息相关的连接位置。3.根据权利要求1所述的计算机实施的方法,其中,所述结构分析提供内容连接,以确定文档元素相对于其在文档中的位置的相关性。4.根据权利要求1所述的计算机实施的方法,其中,所述结构分析包括获取元数据,以提供有关文档的附加上下文。5.根据权利要求1所述的计算机实施的方法,其中,所述图像分析进一步被配置为生成元数据,以实现文档分类和文档解释。6.根据权利要求1所述的计算机实施的方法,其中,所述结构分析被配置为识别所述多个生命科学文档是如何从组成元素和关系构造的。7.根据权利要求1所述的计算机实施的方法,其中,所述图像分析包括识别提供附加元数据的一个或多个图像。8.一种计算设备,被配置为作为计算机实施的自动分类和解释工具而运行,包括:一个或多个处理器;以及一个或多个非暂时性计算机可读存储介质,以存储指令,当所述指令由所述一个或多个处理器执行时使所述计算设备:将多个生命科学文档解构为标准化数据结...

【专利技术属性】
技术研发人员:加里
申请(专利权)人:IQVIA公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1