一种化学文献关键信息自动提取方法及装置制造方法及图纸

技术编号：46630839 阅读：1 留言：0更新日期：2025-10-14 21:29

本发明专利技术提供一种化学文献关键信息自动提取方法及装置，涉及化学文献识别领域，包括：获取化学文献，将化学文献输入第一Florence‑2模型进行文本识别，获得化学文本集合；将化学文献输入改进MolScribe模型进行图片识别，获得化学图片集合；将化学文本集合输入第一大语言模型进行核心段落筛选，获得核心段落文本集合；将化学图片集合和核心段落文本集合输入第二大语言模型进行关键信息提取，获得化学关键信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及化学文献识别领域，尤其涉及一种化学文献关键信息自动提取方法及装置。

技术介绍

1、在化学研究和工业生产中，自动化提取有机化学合成相关的专利和期刊文献中的反应信息，已成为提升化学反应数据库构建效率的关键技术，其重要性日益凸显，主要源于当前深度学习任务的训练对高质量化学反应数据库的依赖性。深度学习模型，如用于逆合成预测、产物预测和条件预测等任务，需要大量的、准确的、结构化的数据来训练和优化。然而，现有的化学反应数据常面临一些挑战和问题，如反应角色的缺失、反应步骤的不完整、分子结构的识别错误以及文本识别的不准确等。这些问题不仅影响数据库的准确性和可靠性，也限制了深度学习模型在化学信息学中的应用和发展。为了提高数据质量，需要从源头上确保信息的准确性和完整性。这包括对反应物、产物、试剂、溶剂、催化剂、实验条件和产率等关键信息的准确提取。自动化提取技术可以大幅提高这一过程的效率，减少人工干预，从而降低错误率。此外，自动化提取还可以处理大量数据，构建更全面、更丰富的化学反应数据库，为深度学习模型提供更高质量的训练数据。

2、...

【技术保护点】

1.一种化学文献关键信息自动提取方法，其特征在于，包括步骤：

2.根据权利要求1所述的化学文献关键信息自动提取方法，其特征在于，第一Florence-2模型的训练过程具体包括：

3.根据权利要求2所述的化学文献关键信息自动提取方法，其特征在于，将化学文献输入第一Florence-2模型进行文本识别，获得化学文本集合，具体包括：

4.根据权利要求1所述的化学文献关键信息自动提取方法，其特征在于，改进MolScribe模型的构建过程具体包括：

5.根据权利要求4所述的化学文献关键信息自动提取方法，其特征在于，将化学文献输入改进MolScribe...

【技术特征摘要】

1.一种化学文献关键信息自动提取方法，其特征在于，包括步骤：

2.根据权利要求1所述的化学文献关键信息自动提取方法，其特征在于，第一florence-2模型的训练过程具体包括：

3.根据权利要求2所述的化学文献关键信息自动提取方法，其特征在于，将化学文献输入第一florence-2模型进行文本识别，获得化学文本集合，具体包括：

4.根据权利要求1所述的化学文献关键信息自动提取方法，其特征在于，改进molscribe模型的构建过程具体包括：

5.根据权利要求4所述的化学文献关键信息自动提取方法，其特征在于，将化学文献输入改进molscribe模型进行图片识别，获得化学图片集合，具体包括：

6.根据权利要求1所述的化学文献关键信息自...

【专利技术属性】
技术研发人员：沈国文，夏宁，
申请(专利权)人：武汉智化科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人