一种自然语言文本的信息提取方法及装置制造方法及图纸

技术编号：24092969 阅读：26 留言：0更新日期：2020-05-09 08:55

本发明专利技术适用于自然语言处理技术领域，提供了一种自然语言文本的信息提取方法及装置，该方法包括：对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种；对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；对所述第二文本数据进行信息提取，以获取实体关系三元组。本发明专利技术通过对自然语言文本进行语料预处理后，进一步对自然语言文本进行统一适配处理，生成符合预设格式的第二文本数据，再将第二文本数据用于知识信息的提取，有效提高了知识信息提取的效率和准确度。

Information extraction method and device of natural language text

全部详细技术资料下载

【技术实现步骤摘要】
一种自然语言文本的信息提取方法及装置
本专利技术属于自然语言处理
，尤其涉及一种自然语言文本的信息提取方法及装置。
技术介绍
随着医疗大数据时代的来临，医疗自然语言文本的知识挖掘和利用受到越来越多的关注。以电子病历为例，电子病历本身是一种半结构化的数据，其结构化的内容为计算机自动抽取和分析提供了便利；同时，非结构化的数据蕴藏着丰富的医疗知识和患者的健康信息，充分提取电子病历中的这些信息有利于推动医疗事业的发展。自然语言处理(NaturalLanguageProcessing，简写为NLP)是计算机科学领域与人工智能领域中的一个重要方向，目前常用于自然语言文本的信息提取。知识信息提取是信息抽取的重要任务，其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据，以便从文本中识别出实体以及实体间的关系。目前，在进行知识信息的提取时，需要医学领域专家手工编写标注规则，然后将标注规则应用于需要进行信息提取的医疗自然语言文本，以便获取其中的知识信息。然而，由于医疗自然语言文本自身记录描述的特性，各医院实际记录时写法多样，导致人工编写的标注规则在进行知识信息的提取时容易出现欠拟合的情形，无法准确获取其中的知识信息，知识信息的提取效率低下。
技术实现思路
有鉴于此，本专利技术实施例提供了一种自然语言文本的信息提取方法、装置、终端设备及计算机可读存储介质，以解决现有技术中进行知识信息的提取时容易出现欠拟合的情形，导致无法准确获取其中的知识信息，知识信息的提取效率低下的技术问题。本专...

【技术保护点】
1.一种自然语言文本的信息提取方法，其特征在于，包括：/n对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种；/n对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；/n对所述第二文本数据进行信息提取，以获取实体关系三元组。/n

【技术特征摘要】
1.一种自然语言文本的信息提取方法，其特征在于，包括：
对获取的自然语言文本进行第一预处理，以获得第一文本数据，所述第一预处理至少包括语料清洗、分词以及去停用词中的一种；
对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据；
对所述第二文本数据进行信息提取，以获取实体关系三元组。

2.如权利要求1所述的自然语言文本的信息提取方法，其特征在于，所述对所述第一文本数据进行第二预处理，以生成符合预设格式的第二文本数据，包括：
对所述第一文本数据进行分类，以获取符合预设格式的常规实体三元组和不符合所述预设格式的特殊实体三元组；
根据第一预设方式对所述特殊实体三元组进行处理，以将所述特殊实体三元组转换成符合所述预设格式的常规实体三元组，以获得所述第二文本数据。

3.如权利要求2所述的自然语言文本的信息提取方法，其特征在于，所述第一预设方式至少包括以下一种：
对所述特殊实体三元组中的序号进行识别，并将其转换为预设的序号书写格式；
对所述特殊实体三元组中的时间进行识别，并将其转换为预设的时间格式；
对所述特殊实体三元组中的实体属性进行识别，并将其转换为预设的实体描述格式；
以及，对所述特殊实体三元组中的标点符号进行识别，并将其转换为符号语法规则的标点格式。

4.如权利要求1所述的自然语言文本的信息提取方法，其特征在于，所述对获取的自然语言文本进行第一预处理，以获得第一文本数据，包括：
采用第二预设方式对所述自然语言文本进行语料清洗，以提取第一中间数据；
采用分词算法对所述第一中间数据进行分词，以获取第二中间数据；
对所述第二中间数据进行去...

【专利技术属性】
技术研发人员：殷云翔，李红杰，刘水清，
申请(专利权)人：南京医渡云医学技术有限公司，南京懿医云大数据科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人