一种基于自然语音处理的中医药专利分析与挖掘工具制造技术

技术编号:38872457 阅读:12 留言:0更新日期:2023-09-22 14:08
本发明专利技术公开了一种基于自然语音处理的中医药专利分析与挖掘工具,包括数据预处理、中医药术语识别、特征提取、分析与挖掘、可视化展示,所述数据预处理的下一步骤为中医药术语识别,所述中医药术语识别的下一步骤为特征提取,所述特征提取的下一步骤为分析与挖掘,本专利技术利用自然语言处理和数据挖掘技术对中医药专利进行自动化处理、分析和挖掘,大大减少了人工干预,提高了分析效率,本专利技术结合领域知识,对中医药专利中的实体、关系和概念进行准确识别和挖掘,发现潜在的规律和关联信息,本专利技术提供了丰富的可视化展示方式,如图形展示、知识图谱等,直观地呈现分析结果,方便用户进行进一步的查询和筛选。方便用户进行进一步的查询和筛选。方便用户进行进一步的查询和筛选。

【技术实现步骤摘要】
一种基于自然语音处理的中医药专利分析与挖掘工具


[0001]本专利技术属于中医药信息处理与知识发现相关
,具体涉及自然语言处理、数据挖掘、文本分析、专利分析与挖掘技术在中医药专利信息中的应用。

技术介绍

[0002]随着中医药行业的快速发展,专利数量逐年上升,专利信息中蕴含着丰富的知识和商业价值。然而,海量的专利数据和复杂的中医药术语使得人工分析和挖掘的效率低下,且难以准确获取关键信息。因此,利用自然语言处理(NLP)、数据挖掘等技术对中医药专利进行智能化处理和分析具有重要意义。
[0003]自然语言处理技术在文本挖掘、信息检索等方面已有广泛应用。近年来,随着深度学习技术的发展,基于深度学习的自然语言处理方法在词义消歧、实体识别、关系抽取等任务上取得了显著的成果。然而,将这些方法应用于中医药专利分析仍面临一定挑战。中医药领域的专业术语、短语和表述方式具有独特性,传统的自然语言处理方法可能无法准确处理这些特殊信息。
[0004]数据挖掘技术在关联规则挖掘、聚类分析、分类等方面具有较强的应用能力。然而,将数据挖掘技术应用于中医药专利分析时,需要考虑如何将自然语言处理技术与数据挖掘技术相结合,对文本数据进行有效的预处理和特征提取。此外,由于中医药专利数据的多样性和复杂性,需要设计合适的TE

IDF算法和模型以适应不同类型的分析任务。
[0005]目前,针对中医药专利分析的相关研究和应用尚不成熟,缺乏一种有效的、综合运用自然语言处理和数据挖掘技术的中医药专利分析与挖掘工具。因此,开发一种基于自然语言处理的中医药专利分析与挖掘工具具有重要的研究价值和应用前景。

技术实现思路

[0006]本专利技术的目的在于提供一种基于自然语音处理的中医药专利分析与挖掘工具,以解决上述
技术介绍
中提出的针对中医药专利分析的相关研究和应用尚不成熟,缺乏一种有效的、综合运用自然语言处理和数据挖掘技术的中医药专利分析与挖掘工具问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:一种基于自然语音处理的中医药专利分析与挖掘工具,包括数据预处理、中医药术语识别、特征提取、分析与挖掘、可视化展示;
[0008]所述数据预处理的下一步骤为中医药术语识别,所述中医药术语识别的下一步骤为特征提取,所述特征提取的下一步骤为分析与挖掘,所述分析与挖掘的下一步骤为可视化展示。
[0009]优选的,所述数据预处理包括数据清洗、数据标准化、数据结构化,所述数据清洗的下一步骤为数据标准化,所述数据标准化的下一步骤为数据结构化,所述数据标准化的下一步骤为数据结构化。
[0010]优选的,所述中医药术语识别包括实体识别、关系抽取、术语消岐,所述实体识别
的下一步骤为关系抽取,所述关系抽取的下一步骤为术语消岐。
[0011]优选的,所述特征提取包括词频统计、TE

IDF算法、词向量表示,所述词频统计的下一步骤为TE

IDF算法,所述TE

IDF算法的下一步骤为词向量表示。
[0012]优选的,所述分析与挖掘包括聚类分析、关联规则挖掘、文本分类、情感分析,所述聚类分析的下一步骤为关联规则挖掘,所述关联规则挖掘的下一步骤为文本分类,所述文本分类的下一步骤为情感分析。
[0013]优选的,所述可视化展示包括图形展示、知识图谱、交互式界面,所述图形展示的下一步骤为知识图谱,所述知识图谱的下一步骤为交互式界面。
[0014]与现有技术相比,本专利技术提供了一种基于自然语音处理的中医药专利分析与挖掘工具,具备以下有益效果:
[0015]高度自动化:本专利技术利用自然语言处理和数据挖掘技术对中医药专利进行自动化处理、分析和挖掘,大大减少了人工干预,提高了分析效率。
[0016]准确性与深度挖掘:本专利技术结合领域知识,对中医药专利中的实体、关系和概念进行准确识别和挖掘,发现潜在的规律和关联信息。
[0017]可视化展示与交互:本专利技术提供了丰富的可视化展示方式,如图形展示、知识图谱等,直观地呈现分析结果,方便用户进行进一步的查询和筛选。
[0018]可扩展性与通用性:本专利技术具有良好的可扩展性,可以根据实际需求进行调整和优化,同时具有较高的通用性,可应用于其他领域的专利分析与挖掘任务。
[0019]提高了中医药专利分析的准确性和深度:采用先进的自然语言处理技术,如BERT和Transformer模型,能够捕捉丰富的语义信息和上下文关系,从而提高中医药专利分析的准确性和深度。
[0020]融合了中医药领域知识:本专利技术结合领域知识,采用深度学习方法对中医药专利中的实体和关系进行识别和抽取。通过实体识别技术,可以准确地从文本中识别出中医药实体,如草药、症状、疾病等。关系抽取技术则能够发现这些实体间的语义关联,如草药与疾病的治疗关系等。
[0021]针对中医药领域特点做出了优化:本专利技术针对中医药领域的特点,设计了一套基于中医药领域知识和语义特征的模型,能够准确地识别和抽取中医药实体和关系。此外,采用了基于词向量表示和相似度度量的聚类分析方法,发现潜在的
和研究方向,为中医药研究提供了有益的支持。
[0022]增强了专利分析的效率:本专利技术采用多种技术手段,如缓存处理、并行计算等,大幅提高了中医药专利分析的效率,缩短了分析时间,同时提高了分析精度和深度。
[0023]具有可扩展性和通用性:本专利技术的各个模块和TE

IDF算法都是基于通用的自然语言处理技术和深度学习框架,可以方便地扩展和应用到其他领域的专利分析和知识挖掘中,具有很高的通用性和实用性。
[0024]综上所述,本专利技术基于现有的自然语言处理和数据挖掘技术,提出了一种高效、准确、可视化的中医药专利分析与挖掘工具。相较于传统方法,本专利技术具有更高的效率、准确性和智能水平,有望推动中医药专利分析与挖掘领域的发展。
附图说明
[0025]图1为本专利技术总流程的结构示意图。
[0026]图2为本专利技术细分流程的结构示意图。
[0027]图中:1、数据预处理;11、数据清洗;12、数据标准化;13、数据结构化;2、中医药术语识别;21、实体识别;22、关系抽取;23、术语消岐;3、特征提取;31、词频统计;32、TE

IDF算法;33、词向量表示;4、分析与挖掘;41、聚类分析;42、关联规则挖掘;43、文本分类;44、情感分析;5、可视化展示;51、图形展示;52、知识图谱;53、交互式界面。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]本专利技术提供了如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语音处理的中医药专利分析与挖掘工具,包括数据预处理(1)、中医药术语识别(2)、特征提取(3)、分析与挖掘(4)、可视化展示(5);其特征在于:所述数据预处理(1)的下一步骤为中医药术语识别(2),所述中医药术语识别(2)的下一步骤为特征提取(3),所述特征提取(3)的下一步骤为分析与挖掘(4),所述分析与挖掘(4)的下一步骤为可视化展示(5)。2.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具,其特征在于:所述数据预处理(1)包括数据清洗(11)、数据标准化(12)、数据结构化(13),所述数据清洗(11)的下一步骤为数据标准化(12),所述数据标准化(12)的下一步骤为数据结构化(13),所述数据标准化(12)的下一步骤为数据结构化(13)。3.根据权利要求1所述的一种基于自然语音处理的中医药专利分析与挖掘工具,其特征在于:所述中医药术语识别(2)包括实体识别(21)、关系抽取(22)、术语消岐(23),所述实体识别(21)的下一步骤为关系抽取(22),所述关系抽取(22)的下一步骤为术语消岐(23)。4.根据权利要求1...

【专利技术属性】
技术研发人员:刘扬童元元高曼李彦文张雨琪于忱忱
申请(专利权)人:中国中医科学院中医药信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1