自组装属性提取方法及装置制造方法及图纸

技术编号:37349042 阅读:15 留言:0更新日期:2023-04-22 21:45
本申请提供了一种自组装属性提取方法及装置,所述方法包括:获取待提取文本;从所述待提取文本中提取出自组装基本结构单元的名称字段;根据所述名称字段和预设的各个属性关键词对所述待提取文本进行文本匹配,并根据文本匹配的结果从所述待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系。采用本申请的方案,可以从待提取文本中自动提取自组装属性的属性字段并生成名称属性映射关系,无需人工阅读文本、人工提取信息,从而可大大提高自组装属性的提取效率。大提高自组装属性的提取效率。大提高自组装属性的提取效率。

【技术实现步骤摘要】
自组装属性提取方法及装置


[0001]本申请涉及计算机
,尤其涉及一种自组装属性提取方法、装置、存储介质及计算机设备。

技术介绍

[0002]自组装是指基本结构单元自发形成有序结构的技术,例如在一定条件下,纳米材料会自发地组织或聚集为一个稳定且具有规则几何外观的结构。近年来,随着人们对自组装技术的不断探索,基于自组装技术而得到的自组装结构也越来越多,涉及自组装结构的文献数量也迎来了较大的增长。
[0003]然而,目前尚未存在能够自动提取自组装结构属性的方法,因此,在获取自组装结构属性的过程中,需要通过人工的方式来阅读各篇文献并从文献中提取出相关自组装结构的属性。由此可见,现有方法存在提取效率低的问题。

技术实现思路

[0004]本申请的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中自组装属性提取效率低的技术缺陷。
[0005]第一方面,本申请实施例提供了一种自组装属性提取方法,该方法包括:获取待提取文本;从所述待提取文本中提取出自组装基本结构单元的名称字段;根据所述名称字段和预设的各个属性关键词对所述待提取文本进行文本匹配,并根据文本匹配的结果从所述待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系。
[0006]第二方面,本申请实施例提供了一种自组装属性提取装置,该装置包括:文本获取模块,用于获取待提取文本;名称字段提取模块,用于从所述待提取文本中提取出自组装基本结构单元的名称字段;属性字段提取模块,用于根据所述名称字段和预设的各个属性关键词对所述待提取文本进行文本匹配,并根据文本匹配的结果从所述待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系。
[0007]第三方面,本申请实施例提供了一种存储介质,该存储介质中存储有计算机可读指令,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述自组装属性提取方法的步骤。
[0008]第四方面,本申请实施例提供了一种计算机设备,该计算机设备包括:一个或多个处理器,以及存储器;所述存储器中存储有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,执行上述任一实施例所述自组装属性提取方法的步骤。
[0009]在本申请的自组装属性提取方法、装置、存储介质及计算机设备中,计算机设备从待提取文本中提取出自组装基本结构单元的名称字段,并根据名称字段和预设的各个属性关键词对待提取文本进行文本匹配,并根据文本匹配的结果从待提取文本中提取出自组装属性的属性字段,并生成名称属性映射关系。如此,计算机设备可以从待提取文本中自动提取自组装属性的属性字段并生成名称属性映射关系,无需人工阅读文本、人工提取信息,从而可大大提高自组装属性的提取效率。
附图说明
[0010]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0011]图1为一个实施例中自组装属性提取方法的流程示意图;图2为一个实施例中,从待提取文本中提取出自组装基本结构单元的名称字段步骤的流程示意图;图3为一个实施例中,根据名称字段和预设的各个属性关键词对待提取文本进行文本匹配,并根据文本匹配的结果从待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系步骤的流程示意图;图4为一个实施例中自组装属性提取装置的结构示意图;图5为一个实施例中计算机设备的内部结构图。
具体实施方式
[0012]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0013]在一些实施例中,本申请提供的自组装属性提取方法可以应用于任意具备数据处理功能的计算机设备上,该计算机设备可以但不限于应用在各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备、便携式可穿戴设备和服务器。
[0014]在一个实施例中,本申请提供了一种自组装属性提取方法。如图1所示,该方法具体可以包括如下步骤:S102:获取待提取文本;S104:从待提取文本中提取出自组装基本结构单元的名称字段;S106:根据名称字段和预设的各个属性关键词对待提取文本进行文本匹配,并根据文本匹配的结果从待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系。
[0015]其中,待提取文本可以是与自组装相关的文本材料,可以但不限于文献、论文、网页内容或公众号文章等。例如,待提取文本可以是从自组装纳米材料文献中截取得出的,或是将自组装纳米材料文献的全部文本作为待提取文本。
[0016]自组装基本结构单元是指进行自组装的基本结构单元,例如多肽、分子、纳米材料、微米或更大尺度的物质等,本文对此不作具体限制。为便于说明,本文的一些实施例以多肽为例进行描述。自组装基本结构单元的名称字段是指进行自组装的基本结构单元的结构单元名称,例如“NH2

Phe

Phe

OH”、“Fmoc

Phe

Phe

Asp

COOH”。
[0017]属性关键词是指与自组装属性相关联的特定词语,包括但不限于结构单元属性关键词和产物属性关键词。其中,结构单元属性关键词是指自组装基本结构单元具备的,且与自组装的进行密切相关的结构属性所涉及的词语。产物属性关键词是指自组装产物的产物属性所涉及的词语。可以理解,属性关键词的词语内容和数量均可以依据实际情况来预先设置,本文对此不作具体限制。
[0018]具体而言,计算机设备在获取到待提取文本后,可以确定记录在待提取文本中的自组装基本结构单元的名称字段,并将该名称字段从待提取文本中提取出来。可以理解,计算机设备可以采用多种方式来执行S104,本文对此不作具体限制。
[0019]在获取到待提取文本记录的名称字段时,计算机设备可以依据该名称字段和预先设置的各个属性关键词,对待提取文本进行文本匹配。在此情况下,所得的文本匹配结果能够反映待提取文本是否记录有自组装属性的属性字段,以及名称字段与属性字段间是否存在关联。当文本匹配的结果反映待提取文本中记录有属性字段,且名称字段与属性字段间存在关联时,计算机设备可以从待提取文本中提取出该属性字段并生成名称属性映射关系。其中,名称属性映射关系是指名称字段与属性字段之间的对应关系,以便于计算机设备或研究人员根据名称属性映射关系快速确定自组装基本结构单元所具备的自组装属性。
[0020]本申请中,计算机设备从待提取文本中提取出自组装基本结构单元的名称字段,并根据名称字段和预设的各个属性关键词对待提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自组装属性提取方法,其特征在于,所述方法包括:获取待提取文本;从所述待提取文本中提取出自组装基本结构单元的名称字段;根据所述名称字段和预设的各个属性关键词对所述待提取文本进行文本匹配,并根据文本匹配的结果从所述待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系。2.根据权利要求1所述的自组装属性提取方法,其特征在于,所述待提取文本包括多个文本语句;所述从所述待提取文本中提取出自组装基本结构单元的名称字段的步骤,包括:在各个所述文本语句中确定第一目标语句;采用预设的分词规则分别对每个所述第一目标语句进行分词,以得到多个第一字符块;针对每个所述第一字符块,计算该第一字符块所对应的特定字符占比,若根据该第一字符块所对应的特定字符占比,确定该第一字符块为名称字段字符块,则提取该第一字符块记录的字符信息作为所述名称字段。3.根据权利要求2所述的自组装属性提取方法,其特征在于,所述特定字符占比为大写字母占比;所述若根据该第一字符块所对应的特定字符占比,确定该第一字符块为名称字段字符块,则提取该第一字符块记录的字符信息作为所述名称字段的步骤,包括:当该第一字符块所对应的大写字母占比大于或等于预设比例阈值时,确定该第一字符块为所述名称字段字符块,并提取该第一字符块记录的字符信息作为所述名称字段。4.根据权利要求2或3所述的自组装属性提取方法,其特征在于,所述在各个所述文本语句中确定第一目标语句的步骤,包括:根据预设的各个基本结构单元类型关键词,分别对每个所述文本语句进行文本匹配,以在各个所述文本语句中确定所述第一目标语句;其中,每个所述第一目标语句为记录有至少一个所述基本结构单元类型关键词的文本语句。5.根据权利要求1所述的自组装属性提取方法,其特征在于,所述待提取文本包括多个文本语句,各个所述属性关键词包括各个自组装属性的属性类型关键词;所述根据所述名称字段和预设的各个属性关键词对所述待提取文本进行文本匹配,并根据文本匹配的结果从所述待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系的步骤,包括:根据各个所述属性类型关键词对每个所述文本语句进行文本匹配,以在各个所述文本语句中确定记录有至少一个所述属性类型关键词的第二目标语句;针对每个所述第二目标语句,基于所述名称字段和目标关键词对该第二目标语句进行文本匹配,以判断该第二目标语句中是否记录有所述名称字段和对应于所述目标关键词的属性字段,若是,则从该第二目标语句中提取出所述属性字段,并根据所述属性字段和所述名称字段生成所述名称属性映射关系,其中,所述目标关键词为该第二目标语句记录的所述属性类型关键词。6.根据权利要求5所述的自组装属性提取方法,其特征在于,所述根据所述名称字段和
预设的各个属性关键词对所述待提取文本进行文本匹配,并根据文本匹配的结果从所述待提取文本中提取出自组装属性的属性字段以及生成名称属性映射关系的步骤,还包括:针对每个所述第二目标语句,若该第二目标语句未记录有所述名称字段和所述目标关键词对应的属性字段,则将该第二目标语句、该第二目标语句前方相邻的N个文本语句和后方相邻的N个文本语句作为待匹配语句集合,并根据所述名称字段和所述目标关键词对所述待匹配语句集合进行文本匹配,以判断所述待匹配语句集合是否记录有所述名称字段和对应于所述目标关键词的属性字段,若是,则从所述待匹配语句集合中提取出所述属性字段,并根据所述属性字段和所...

【专利技术属性】
技术研发人员:曹娜娜王会李华伟黄康龙汪亮赵笑笑郭令举任红轩施兴华赵宇亮
申请(专利权)人:广东粤港澳大湾区国家纳米科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1