一种基于6W语义标识的非结构化自然语言信息抽取方法技术

技术编号:11091103 阅读:123 留言:0更新日期:2015-02-26 19:54
本发明专利技术是一种基于6W语义标识的非结构化自然语言信息抽取方法,它涉及信息技术领域。该抽取方法,包括以下步骤:S1,将数据库中完整数据元数据模型中存储的元数据复制到缓存中,得到元数据复制文本;S2,将非结构化自然语言进行文本解析,得到具有非结构化语言的数据元的文件File 8;S3,将所述数据元进行人工处理,然后建立索引文件,最后经过元数据登记,记录并保存文件的路径,完成基于6W语义标识的所述非结构化自然语言信息抽取;所述6W是六个维度的场景数据。本发明专利技术解决了现有信息抽取方法对编制规则的工程师要求高、费时费力,同时,还达不到需要信息集合最大化的问题。

【技术实现步骤摘要】
一种基于6W语义标识的非结构化自然语言信息抽取方法
本专利技术涉及信息
,尤其涉及一种基于6W语义标识的非结构化自然语言信息抽取方法。
技术介绍
信息抽取技术是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。它起源于自然语言处理,是最开始处理自由文本的工具。但是,随着互联网的兴起,结构化文本和半结构化文本的数量不断激增,致使科学家将信息抽取技术广泛应用于这两种文本,因此现有的信息抽取技术肩负如何描述文本和如何学习特征的责任:其中,如何描述文本即用特征描述文本;如何学习特征的基础是知识工程方法和自动训练方法,可是在现有技术中,知识工程方法人工编织规则,同时,对编制规则的工程师的业务要求高,费时费力,还达不到需要信息集合最大化的要求。
技术实现思路
本专利技术的目的在于提供一种基于6W语义标识的非结构化自然语言信息抽取方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术是一种基于6W语义标识的非结构化自然语言信息抽取方法,采用的技术方案包括以下步骤:S1,将数据库中完整数据元数据模型中存储的元数据复制到缓存中,得到元数据复制文本;S2,将非结构化自然语言进行文本解析,得到具有非结构化语言的数据元的文件File8;S3,将所述数据元进行人工处理,然后建立索引文件,最后经过元数据登记,记录并保存文件的路径,完成基于6W语义标识的所述非结构化自然语言信息抽取;所述6W指六个维度的场景数据,所述六个维度包括:时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度。优选地,步骤S2中所述将非结构化语言进行文本解析,得到具有非结构化语言的数据元的文件File8,具体包括以下步骤:S11,文本复制去噪:将所述非结构化语言中的图片、设置的动画、视频、音频无法解析的内容去除,形成纯文本文件;S12,数据元标识:对所述纯文本文件进行数据元标识处理,形成包含数据元识别和数据识别的文件File1;S13,标识分组排序:将所述文件File1中存储的数据元进行排序分组处理,去掉数据元间关联性小的数据元组后,构成一个不完整的数据元数据模型1,得到记录所述模型的文件File2;S14,数据元确认:将步骤S13中得到的文件File2依次进行M项缺失处理、数据元分布处理、数据元上下文关联处理、数据元关联关系处理、数据元完整性验证和数据元裁剪处理,得到具有非结构化语言的数据元的文件File8。更优选地,所述数据元标识是将经过数据元识别的所述纯文本文件,再进行数据识别;具体按照下述方法实现:依据所述元数据复制文本中的数据元,标识所述纯文本文件中与其对应的数据元;然后再根据数据库中元数据仓库中存储的场景数据和特征数据,进行场景数据识别和特征数据识别,标识出所述纯文本文件与所述场景数据和所述特征数据具有映射关系的数据元,即得到包含数据元识别和数据识别的文件File1。更优选地,步骤S13,具体按下述步骤实现:依据所述文件File1中的数据元识别的标识进行排序处理,得到多组数据元组,判断任意一个所述数据元组中各个数据元间的关联性是否符合关联阈值;若是符合所述关联阈值,则保留该组数据元;若是不符合所述关联阈值,则删除该组数据元;所述保留的数据元组构成不完整数据元数据模型,将其记录到所述文件File1中,得到文件File2。更优选地,步骤S14中所述M项缺失处理,具体按照下述实现:依据所述文件File2中的不完整数据元数据模型,去除缺失M项实体中的所有数据元,保留含有M项实体中的所有数据元,得到文件File3。更优选地,步骤S14中所述数据元分布处理,具体按照下述方法实现:S1421,依据所述元数据复制文本中各个实体中数据元的分布设定分布阈值,将所述文件File3中不完整数据元数据模型中的各个实体中的数据元的分布值与相应的分布阈值对比分析,保留所述不完整数据元数据模型中符合分布阈值的实体中的数据元,去除所述不完整数据元数据模型中不符合分布阈值的实体中的数据元;S1422,依据数据库中元数据仓库中存储的6W场景中的数据元,保留所述文件File3中不完整数据元数据模型中满足6W场景数据元,去除所述文件File3中不完整数据元数据模型中满足6W场景数据元,得到文件File4。更优选地,步骤S14中所述数据元上下文关联处理,具体按照下述方法实现:将所述文件File4中的不完整数据元数据模型4与所述纯文本文件的上下文结构匹配分析,如果一个实体中的数据元集中在所述非结构化语言的某一段落或者某一句话中,则保留这个实体中的数据元,如果实体中的数据元零散分布在多个段落,甚至多个章节中,则删掉该实体中的所有数据元,得到文件File5;步骤S14中所述数据元关联关系处理,具体按照下述方法实现:在所述文件File5中的不完整数据元数据模型5中查找同属于所述不完整数据元数据模型5的数据元j的父数据元L,S1441,若在所述不完整数据元数据模型5中存在所述数据元j的父数据元L,判断所述父数据元L在所述元数据复制文本中是否具有约束、值域的限制;若是不具有约束、值域的限制,则保留所述父数据元L,删除所述父数据元L的所有子数据元;若是具有约束、值域的限制,则删除所述父数据元L及其所有子数据元;S1442,若在所述不完整数据元数据模型5中不存在所述数据元j的父数据元L,则直接保留所述数据元j,得到文件File6。更优选地,步骤S14中所述数据元完整性验证,具体按照下述方法实现:将所述文件File6中的不完整数据元数据模型6中的数据元排序,设定数据库中规范值的阈值和量纲的阈值,保留所述不完整数据元数据模型6中符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元,删除所述不完整数据元数据模型6中不符合所述规范值的阈值和所述量纲的阈值的实体及其中的数据元,得到文件File7;步骤S14中所述数据元裁剪,具体按照下述方法实现:将所述文件File7中的数据元与所述纯文本文件进行匹配分析,删除与所述纯文本文件关联性低的数据元,保留与所述纯文本文件关联性高的数据元,得到文件File8;其中,在所述文件File8中至少存在一个数据元。优选地,步骤S3中,所述依据所述数据元建立索引文件后,进行元数据登记,记录并保存文件的路径,具体包括以下步骤:S31,依据所述非结构化自然语言的语义信息,人工对步骤S2得到的所述文件File8中存储数据元进行判断处理,删除不符合所述非结构化自然语言语义信息的数据元,保留符合所述非结构化自然语言语义信息的数据元,即得到具有精细化数据元的文件File;S32,将所述具有精细化数据元的文件File作为目标索引文件,与所述非结构化自然语言一同存储在数据库中;S33,依据所述完整数据元数据模型,将所述目标索引文件中的数据元,作为元数据登记到数据仓库中,并记录和保存所述目标索引文件中的数据元的存储路径。更优选地,在步骤S33中,将所述目标索引文件中的数据元,作为元数据登记到数据仓库的过程,具体按照下述规则进行登记:若所述数据元所在的实体中缺失M项,则所述实体中的所有数据元不予登记,直接不予登记的所述数据元删除;若所述数据元所在的实体中不缺失M项,则所述实体中的所有数据元予以登记。本专利技术的有益效果是:1、在本专利技术的数据元标识过程中,分别通过完整数据元本文档来自技高网...
一种基于6W语义标识的非结构化自然语言信息抽取方法

【技术保护点】
一种基于6W语义标识的非结构化自然语言信息抽取方法,其特征在于,该抽取方法,包括以下步骤:S1,将数据库中完整数据元数据模型中存储的元数据复制到缓存中,得到元数据复制文本;S2,将非结构化自然语言进行文本解析,得到具有非结构化语言的数据元的文件File 8;S3,将所述数据元进行人工处理,然后建立索引文件,最后经过元数据登记,记录并保存文件的路径,完成基于6W语义标识的所述非结构化自然语言信息抽取;所述6W指六个维度的场景数据,所述六个维度包括:时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度。

【技术特征摘要】
1.一种基于6W语义标识的非结构化自然语言信息抽取方法,其特征在于,该抽取方法,包括以下步骤:S1,将数据库中完整数据元数据模型中存储的元数据复制到缓存中,得到元数据复制文本;S2,将非结构化自然语言进行文本解析,得到具有非结构化语言的数据元的文件File8;S3,将所述数据元进行人工处理,然后建立索引文件,最后经过元数据登记,记录并保存文件的路径,完成基于6W语义标识的所述非结构化自然语言信息抽取;所述6W指六个维度的场景数据,所述六个维度包括:时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度;步骤S2中所述将非结构化语言进行文本解析,得到具有非结构化语言的数据元的文件File8,具体包括以下步骤:S11,文本复制去噪:将所述非结构化语言中的图片、设置的动画、视频、音频无法解析的内容去除,形成纯文本文件;S12,数据元标识:对所述纯文本文件进行数据元标识处理,形成包含数据元识别和数据识别的文件File1;S13,标识分组排序:将所述文件File1中存储的数据元进行排序分组处理,去掉数据元间关联性小的数据元组后,构成一个不完整的数据元数据模型1,得到记录所述模型的文件File2;S14,数据元确认:将步骤S13中得到的文件File2依次进行M项缺失处理、数据元分布处理、数据元上下文关联处理、数据元关联关系处理、数据元完整性验证和数据元裁剪处理,得到具有非结构化语言的数据元的文件File8。2.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法,其特征在于,所述数据元标识是将经过数据元识别的所述纯文本文件,再进行数据识别;具体按照下述方法实现:依据所述元数据复制文本中的数据元,标识所述纯文本文件中与其对应的数据元;然后再根据数据库中元数据仓库中存储的场景数据和特征数据,进行场景数据识别和特征数据识别,标识出所述纯文本文件与所述场景数据和所述特征数据具有映射关系的数据元,即得到包含数据元识别和数据识别的文件File1。3.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法,其特征在于,步骤S13,具体按下述步骤实现:依据所述文件File1中的数据元识别的标识进行排序处理,得到多组数据元组,判断任意一个所述数据元组中各个数据元间的关联性是否符合关联阈值;若是符合所述关联阈值,则保留该组数据元;若是不符合所述关联阈值,则删除该组数据元;所述保留的数据元组构成不完整数据元数据模型,将其记录到所述文件File1中,得到文件File2。4.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法,其特征在于,步骤S14中所述M项缺失处理,具体按照下述实现:依据所述文件File2中的不完整数据元数据模型,去除缺失M项实体中的所有数据元,保留含有M项实体中的所有数据元,得到文件File3。5.根据权利要求4所述基于6W语义标识的非结构化自然语言信息抽取方法,其特征在于,步骤S14中所述数据元分布处理,具体按照下述方法实现:S1421,依据所述元数据复制文本中各个实体中数据元的分布设定分布阈值,将所述文件File3中不完整数据元数据模型中的各个实体中的数据元的分布值与相应的分布阈值对比分析,保留所述不完整数据元数据模型中符合分布阈值的实体中的数据元,去除所述不完整数据元数据模型中不符合分布阈值的实体中的数据元;S1422,依据数据库中元数据仓库中存储的6W场景中的数据元,保留所述文...

【专利技术属性】
技术研发人员:贾磊
申请(专利权)人:克拉玛依红有软件有限责任公司
类型:发明
国别省市:新疆;65

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1