一种自然语言文本的信息提取方法及装置制造方法及图纸

技术编号:24092969 阅读:26 留言:0更新日期:2020-05-09 08:55
本发明专利技术适用于自然语言处理技术领域,提供了一种自然语言文本的信息提取方法及装置,该方法包括:对获取的自然语言文本进行第一预处理,以获得第一文本数据,所述第一预处理至少包括语料清洗、分词以及去停用词中的一种;对所述第一文本数据进行第二预处理,以生成符合预设格式的第二文本数据;对所述第二文本数据进行信息提取,以获取实体关系三元组。本发明专利技术通过对自然语言文本进行语料预处理后,进一步对自然语言文本进行统一适配处理,生成符合预设格式的第二文本数据,再将第二文本数据用于知识信息的提取,有效提高了知识信息提取的效率和准确度。

Information extraction method and device of natural language text

【技术实现步骤摘要】
一种自然语言文本的信息提取方法及装置
本专利技术属于自然语言处理
,尤其涉及一种自然语言文本的信息提取方法及装置。
技术介绍
随着医疗大数据时代的来临,医疗自然语言文本的知识挖掘和利用受到越来越多的关注。以电子病历为例,电子病历本身是一种半结构化的数据,其结构化的内容为计算机自动抽取和分析提供了便利;同时,非结构化的数据蕴藏着丰富的医疗知识和患者的健康信息,充分提取电子病历中的这些信息有利于推动医疗事业的发展。自然语言处理(NaturalLanguageProcessing,简写为NLP)是计算机科学领域与人工智能领域中的一个重要方向,目前常用于自然语言文本的信息提取。知识信息提取是信息抽取的重要任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,以便从文本中识别出实体以及实体间的关系。目前,在进行知识信息的提取时,需要医学领域专家手工编写标注规则,然后将标注规则应用于需要进行信息提取的医疗自然语言文本,以便获取其中的知识信息。然而,由于医疗自然语言文本自身记录描述的特性,各医院实际记录时写法多样,导致人工编写的标注规则在进行知识信息的提取时容易出现欠拟合的情形,无法准确获取其中的知识信息,知识信息的提取效率低下。
技术实现思路
有鉴于此,本专利技术实施例提供了一种自然语言文本的信息提取方法、装置、终端设备及计算机可读存储介质,以解决现有技术中进行知识信息的提取时容易出现欠拟合的情形,导致无法准确获取其中的知识信息,知识信息的提取效率低下的技术问题。本专利技术实施例的第一方面提供了一种自然语言文本的信息提取方法,包括:对获取的自然语言文本进行第一预处理,以获得第一文本数据,所述第一预处理至少包括语料清洗、分词以及去停用词中的一种;对所述第一文本数据进行第二预处理,以生成符合预设格式的第二文本数据;对所述第二文本数据进行信息提取,以获取实体关系三元组。本专利技术实施例的第二方面提供了一种自然语言文本的信息提取装置,包括:语料预处理模块,用于对获取的自然语言文本进行第一预处理,以获得第一文本数据,所述第一预处理至少包括语料清洗、分词以及去停用词中的一种;预处理器,用于对所述第一文本数据进行第二预处理,以生成符合预设格式的第二文本数据;获取模块,用于对所述第二文本数据进行信息提取,以获取实体关系三元组。本专利技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。本专利技术实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本专利技术实施例与现有技术相比存在的有益效果至少在于:本专利技术实施例通过对自然语言文本进行语料预处理后,进一步对自然语言文本进行统一适配处理,生成符合预设格式的第二文本数据,再将第二文本数据用于知识信息的提取,有效提高了知识信息提取的效率和准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1是本专利技术实施例提供的自然语言文本的信息提取方法的实现流程示意图一;图2是本专利技术实施例提供的自然语言文本的信息提取方法中对获取的自然语言文本进行第一预处理的实现流程示意图;图3是本专利技术实施例提供的自然语言文本的信息提取方法中对所述第一文本数据进行第二预处理的实现流程示意图;图4是本专利技术实施例提供的自然语言文本的信息提取方法的实现流程示意图二;图5是本专利技术实施例提供的自然语言文本的信息提取方法中二分类模型的结构示意图;图6是本专利技术实施例提供的自然语言文本的信息提取装置的示例图一;图7是本专利技术实施例提供的自然语言文本的信息提取装置的语料预处理模块的示例图一;图8是本专利技术实施例提供的自然语言文本的信息提取装置的示例图二;图9是本专利技术实施例提供的终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,这一领域的研究涉及自然语言。而随着医疗大数据时代的来临,医疗自然语言文本的知识挖掘和利用引起了越来越多的关注。在对医疗自然语言文本进行处时,目前常采用自然语言处理对自然语言文本中的信息进行提取,而知识信息的提取是信息提取中的重要任务。例如,知识信息中包括实体关系,电子病历中记载的实体之间的关系是医疗知识的重要组成部分,对于获取医疗领域中疾病、治疗、检查之间的关系有着重要的意义,而实体关系的提取可以从自然语言文本中识别出实体,并提取实体间的语义关系。在知识图谱中的知识信息通常以三元组的方式进行组织,例如实体关系三元组(实体,关系,实体)。实体关系三元组的获取方法通常包括:基于监督学习的实体关系提取,基于半监督学习的实体关系提取以及基于无监督学习的实体关系提取。其中,监督学习与非监督学习的区别在于输入数据是否有标签,如果输入数据有标签,则为有监督学习;如果输入数据没有标签,则为无监督学习。目前,针对医疗自然语言文本信息的知识信息提取(例如实体关系三元组提取),往往采取无监督学习的方式进行。在进行知识信息的提取时,需要医学领域专家手工编写标注规则,然后将标注规则应用于需要进行信息提取的医疗自然语言文本,以便获取其中的知识信息。然而,虽然医疗自然语言文本的内容存在统一的标准,但医疗自然语言文本因其自身记录描述的特性,各个医院在实际进行记录时的写法多样,而现有的语料预处理技术处理手段有限,导致人工编写的标注规则在进行知识信息的提取时容易出现欠拟合的情形,无法准确获取其中的知识信息,知识信息的提取效率低下。本实施例则提出了一种全新的自然语言文本的信息提取方法,不仅可以极大减少医学领域专家手工新增标注规则的人力成本,而且可以有效提高知识信息提取的效率以及准确度。请参阅图1,本专利技术实施例的目的在于提供一种自然语言文本的信息提取方法,包括:步骤S10:对获取的自然语言文本进行第一预处理,以获得第一文本数据,所述第一预处理至少包括语料清洗、分词以及去停用词中的一种。自然语言文本可以是任意类型的自然语言,例如可以是来自于各个医院的医疗自然语言文本。本实施例以医疗自然语言文本为例进行说明。医疗自然语言文本本文档来自技高网...

【技术保护点】
1.一种自然语言文本的信息提取方法,其特征在于,包括:/n对获取的自然语言文本进行第一预处理,以获得第一文本数据,所述第一预处理至少包括语料清洗、分词以及去停用词中的一种;/n对所述第一文本数据进行第二预处理,以生成符合预设格式的第二文本数据;/n对所述第二文本数据进行信息提取,以获取实体关系三元组。/n

【技术特征摘要】
1.一种自然语言文本的信息提取方法,其特征在于,包括:
对获取的自然语言文本进行第一预处理,以获得第一文本数据,所述第一预处理至少包括语料清洗、分词以及去停用词中的一种;
对所述第一文本数据进行第二预处理,以生成符合预设格式的第二文本数据;
对所述第二文本数据进行信息提取,以获取实体关系三元组。


2.如权利要求1所述的自然语言文本的信息提取方法,其特征在于,所述对所述第一文本数据进行第二预处理,以生成符合预设格式的第二文本数据,包括:
对所述第一文本数据进行分类,以获取符合预设格式的常规实体三元组和不符合所述预设格式的特殊实体三元组;
根据第一预设方式对所述特殊实体三元组进行处理,以将所述特殊实体三元组转换成符合所述预设格式的常规实体三元组,以获得所述第二文本数据。


3.如权利要求2所述的自然语言文本的信息提取方法,其特征在于,所述第一预设方式至少包括以下一种:
对所述特殊实体三元组中的序号进行识别,并将其转换为预设的序号书写格式;
对所述特殊实体三元组中的时间进行识别,并将其转换为预设的时间格式;
对所述特殊实体三元组中的实体属性进行识别,并将其转换为预设的实体描述格式;
以及,对所述特殊实体三元组中的标点符号进行识别,并将其转换为符号语法规则的标点格式。


4.如权利要求1所述的自然语言文本的信息提取方法,其特征在于,所述对获取的自然语言文本进行第一预处理,以获得第一文本数据,包括:
采用第二预设方式对所述自然语言文本进行语料清洗,以提取第一中间数据;
采用分词算法对所述第一中间数据进行分词,以获取第二中间数据;
对所述第二中间数据进行去...

【专利技术属性】
技术研发人员:殷云翔李红杰刘水清
申请(专利权)人:南京医渡云医学技术有限公司南京懿医云大数据科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1