【技术实现步骤摘要】
适用于生命科学的文本识别方法和系统
[0001]本专利技术涉及文本识别
,具体地,涉及一种适用于生命科学的文本识别方法和系统。
技术介绍
[0002]在生命科学领域,绝大多数的有用信息是以文本的形式存在于专著、文献、会议期刊等杂志中,如何有效的将其中的有用信息抽取出来,转化为科研工作者在基础研究中的实际应用是具有重大价值和意义的。
[0003]然而,实际情况确是,生物体的多样性和复杂性决定了生命科学具有高度的专业性。实验方法存在于海量的文本信息中,且生物的实验方法中大量的专业词汇和专业术语使常规识别技术在生命科学领域无法有效发挥作用。
[0004]实验方法通常由多个专业词汇和普通词汇组成,且普通词汇在实验方法中的含义与本身的含义大相径庭,同时,生命科学对于实验技术没有标准的命名,科研工作者在文献中所描述的实验方法通常基于自己的习惯叫法进行简写或者缩写,导致文献中出现的实验方法之间有巨大的差异。这更加增大了实验方法的识别难度。
[0005]现有的实验方法识别是简单的基于自定义的标准实验方法的表格进 ...
【技术保护点】
【技术特征摘要】
1.一种适用于生命科学的文本识别方法,其特征在于,包括:步骤1:在生命科学文献数据库中,使用BERT预训练法对所有文献进行语义化训练,得到一个生命科学领域的文献预训练模型,使用预训练模型在文献中识别出关于生命科学的段落;步骤2:对识别出的段落进行预处理,得到待识别文本;步骤3:通过Word2vec模型,对待识别文本中的每个词进行向量表示;步骤4:对得到的词向量以句为单位进行加权平均和主成分分析,得到对应目标向量;步骤5:对目标向量化后的文本,通过余弦相似度进行比对,得到符合预设要求的文本。2.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,将文献数据库中已标识的生命科学内容段落作为训练集,对预训练模型进行文本分类微调,并通过微调后的模型对未标识的生命科学内容进行段落识别。3.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,通过自然语言处理工具包NLTK和生命科学词表,对识别出的段落进行分句、分词和去停用词,并对分词结果进行聚合、去重和表述统一的替换。4.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,将预处理后的文本以句为单位输入预设词向量模型,得到文本内所有词的相关词向量,再通过对每一维的词向量进行特征中心化、计算协方差矩阵特征值和特征向量,得到降维后的相应词向量,而后通过计算句中已降维词向量的平均值,得到相应的句向量。5.根据权利要求1所述的适用于生命科学的文本识别方法,其特征在于,通过余弦相似度比对已知文本名称和相关段落文本中的句子,得到相似度最高的文本,并通过设置阈值的方式过滤不符合预设要求的文本。6.一种适用于生命科...
【专利技术属性】
技术研发人员:谢伟,
申请(专利权)人:迪普佰奥生物科技上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。