一种术语生成方法、装置及存储介质制造方法及图纸

技术编号:26762643 阅读:25 留言:0更新日期:2020-12-18 23:14
本申请公开了一种术语生成方法,所述方法包括:接收待处理文本;获取待处理文本的单词信息、基因信息;根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。本发明专利技术的实施可以提高术语的准确率,降低了由于人工定义术语生成的客观性,本发明专利技术对术语生成的术语更适合广泛应用和推广,推动了生物学和医学的发展。

【技术实现步骤摘要】
一种术语生成方法、装置及存储介质
本申请涉及计算机领域,尤其涉及一种术语生成方法、装置及存储介质。
技术介绍
有许多业务领域会有专业的团队构建出一些规范化的术语,以便本领域的人员能够统一认识,方便技术的学习和推广。例如:生物、化学领域的基因本体论通过创建可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台,方便生物化学领域的人员进行技术的学习和推广。但是,一般的术语大多由专家手工定义、组织,效率低并且耗费人力,并且不同的专家可能使用不同的表达方式来描述同一个概念,可能会导致术语命名不一致的问题。
技术实现思路
本说明书实施例的目的在于提供一种术语生成方法、装置及存储介质,实现了一种能够根据待处理文本自动进行术语自动生成的方法,提高了术语的准确性,带动了生物领域的推广应用。一方面、本专利技术提供一种术语生成方法,所述方法包括:接收待处理文本;获取所述待处理文本的单词信息、基因信息;根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。进一步地、所述术语生成模型包括术语编码子模型和术语解码子模型,所述术语编码子模型用于根据所述待处理文本的单词信息、基因信息生成所述待处理文本的术语编码信息,所述术语解码子模型用于对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。进一步地、所述术语生成模型采用下述方法构建:采集样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图;利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语编码子模型;根据所述术语编码子模型对所述样本数据集中各个样本文本的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语解码子模型。进一步地、所述术语解码子模型采用拷贝机制对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。进一步地、所述根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图,包括:所述术语异构图中的节点为所述样本数据集中各个样本文本的术语名称、基因信息或摘要信息,所述术语异构图中的边为单词规范化值或基因术语值,其中,所述单词规范化值表征所述样本文本中单词的规范化数值,所述基因术语值用于表征所述样本文本中的基因与术语之间的相似度。另一方面、本专利技术提供一种术语生成模型构建方法,包括:构建样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;根据所述样本数据集中各个样本文本中术语、基因信息、单词信息构建出术语异构图;利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语生成模型中的术语编码子模型;根据所述术语编码子模型对所述样本数据集中各个样本文本的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语生成模型中的所述术语解码子模型。另一方面、本专利技术提供一种术语生成装置,包括:文本接收模块,用于接收待处理文本;信息获取模块,用于获取所述待处理文本的单词信息、基因信息;术语生成模块,用于根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。进一步地、所述术语生成模型包括术语编码子模型和术语解码子模型,所述术语编码子模型用于根据所述待处理文本的单词信息、基因信息生成所述待处理文本的术语编码信息,所述术语解码子模型用于对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。另一方面、本专利技术提供一种术语生成装置,包括:数据集构建模块,用于构建样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;异构图构建模块,用于根据所述样本数据集中各个样本文本中术语、基因信息、单词信息构建出术语异构图;编码子模型构建模块,用于利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语生成模型中的术语编码子模型;解码子模型构建模块,用于根据所述术语编码子模型对所述样本数据集中各个样本文本的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语生成模型中的所述术语解码子模型。再一方面、本专利技术提供一种术语生成处理设备,包括:至少一个处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述所述的方法。本申请实施例提供的术语生成方法、装置及存储介质,具有如下技术效果:本公开文件提供的一种术语生成方法、装置及存储介质,能够根据使用者提供的待处理文本获取到对应的单词信息、基因信息,并利用预先构建好的术语生成模型生成所述待处理文本对应的目标术语,如此一来,可以提高术语的准确率,降低了由于人工定义术语生成的客观性,本专利技术对术语生成的术语更适合广泛应用和推广,推动了生物学和医学的发展。本申请实施例的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1是本申请实施例提供的一种名为“调节细胞生长”的术语,以及带有别名和描述的相关基因的示意图;图2是本申请实施例提供的一种术语生成方法的流程图;图3是本申请实施例提供的一种术语生成模型框架图;图4是本申请实施例提供的一种术语生成模型构建方法;图5是本申请实施例提供的一种术语生成装置的结构示意图;图6是本申请实施例提供的另一种术语生成装置的结构示意图;图7是本申请实施例提供的一种术语生成方法的服务器的硬件结构框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。基因本体论(GeneOntology,GO)是一种应用广泛的生物本体论,它包含了大量的术语,从分子功能、生物过程和细胞成分三个方面描述基因功能。这些术语像树一样分层次地组织起来,并且可以用于注释基因,如图1所示,图1是本申请实施例提供的一种名为“调节细胞生长”的术语,以及带有别名和描述的相关本文档来自技高网...

【技术保护点】
1.一种术语生成方法,其特征在于,所述方法包括:/n接收待处理文本;/n获取所述待处理文本的单词信息、基因信息;/n根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。/n

【技术特征摘要】
1.一种术语生成方法,其特征在于,所述方法包括:
接收待处理文本;
获取所述待处理文本的单词信息、基因信息;
根据所述待处理文本的单词信息、基因信息,利用预先构建好的术语生成模型,生成所述待处理文本对应的目标术语;其中,所述术语生成模型基于术语、基因信息、单词信息之间的关联关系训练获得。


2.根据权利要求1所述的方法,其特征在于,所述术语生成模型包括术语编码子模型和术语解码子模型,所述术语编码子模型用于根据所述待处理文本的单词信息、基因信息生成所述待处理文本的术语编码信息,所述术语解码子模型用于对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。


3.根据权利要求2所述的方法,其特征在于,所述术语生成模型采用下述方法构建:
采集样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本对应的术语名称、基因信息、摘要信息;
根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图;
利用卷积神经网络算法对所述术语异构图进行学习,构建出所述术语编码子模型;
根据所述术语编码子模型对所述样本数据集中各个样本文本的术语编码信息和所述样本数据集中各个样本文本的术语名称,训练构建所述术语解码子模型。


4.根据权利要求2所述的方法,其特征在于,所述术语解码子模型采用拷贝机制对所述术语编码信息进行解码获得所述待处理文本对应的目标术语。


5.根据权利要求3所述的方法,其特征在于,所述根据所述样本数据集中各个样本文本的术语名称、基因信息、摘要信息构建出术语异构图,包括:
所述术语异构图中的节点为所述样本数据集中各个样本文本的术语名称、基因信息或摘要信息,所述术语异构图中的边为单词规范化值或基因术语值,其中,所述单词规范化值表征所述样本文本中单词的规范化数值,所述基因术语值用于表征所述样本文本中的基因与术语之间的相似度。


6.一种术语生成模型构建方法,其特征在于,包括:
构建样本数据集,所述样本数据集中包括多个样本文本以及各个样本文本...

【专利技术属性】
技术研发人员:张小波
申请(专利权)人:安徽正诺智能科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1