一种基于6W语义标识的非结构化自然语言信息抽取方法技术

技术编号：11091103 阅读：123 留言：0更新日期：2015-02-26 19:54

本发明专利技术是一种基于6W语义标识的非结构化自然语言信息抽取方法，它涉及信息技术领域。该抽取方法，包括以下步骤：S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存中，得到元数据复制文本；S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File 8；S3，将所述数据元进行人工处理，然后建立索引文件，最后经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；所述6W是六个维度的场景数据。本发明专利技术解决了现有信息抽取方法对编制规则的工程师要求高、费时费力，同时，还达不到需要信息集合最大化的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于6W语义标识的非结构化自然语言信息抽取方法
本专利技术涉及信息
，尤其涉及一种基于6W语义标识的非结构化自然语言信息抽取方法。
技术介绍
信息抽取技术是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。它起源于自然语言处理，是最开始处理自由文本的工具。但是，随着互联网的兴起，结构化文本和半结构化文本的数量不断激增，致使科学家将信息抽取技术广泛应用于这两种文本，因此现有的信息抽取技术肩负如何描述文本和如何学习特征的责任：其中，如何描述文本即用特征描述文本；如何学习特征的基础是知识工程方法和自动训练方法，可是在现有技术中，知识工程方法人工编织规则，同时，对编制规则的工程师的业务要求高，费时费力，还达不到需要信息集合最大化的要求。
技术实现思路
本专利技术的目的在于提供一种基于6W语义标识的非结构化自然语言信息抽取方法，从而解决现有技术中存在的前述问题。为了实现上述目的，本专利技术是一种基于6W语义标识的非结构化自然语言信息抽取方法，采用的技术方案包括以下步骤：S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存中，得到元数据复制文本；S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File8；S3，将所述数据元进行人工处理，然后建立索引文件，最后经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；所述6W指六个维度的场景数据，所述六个维度包括：时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度。优选地，步骤S2中所述将非结构化语言进行文本解析，得到具有非结构化语言的...
一种基于6W语义标识的非结构化自然语言信息抽取方法

【技术保护点】
一种基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，该抽取方法，包括以下步骤：S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存中，得到元数据复制文本；S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File 8；S3，将所述数据元进行人工处理，然后建立索引文件，最后经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；所述6W指六个维度的场景数据，所述六个维度包括：时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度。

【技术特征摘要】
1.一种基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，该抽取方法，包括以下步骤：S1，将数据库中完整数据元数据模型中存储的元数据复制到缓存中，得到元数据复制文本；S2，将非结构化自然语言进行文本解析，得到具有非结构化语言的数据元的文件File8；S3，将所述数据元进行人工处理，然后建立索引文件，最后经过元数据登记，记录并保存文件的路径，完成基于6W语义标识的所述非结构化自然语言信息抽取；所述6W指六个维度的场景数据，所述六个维度包括：时间维度、活动维度、对象维度、地点维度、参与者维度和结果维度；步骤S2中所述将非结构化语言进行文本解析，得到具有非结构化语言的数据元的文件File8，具体包括以下步骤：S11，文本复制去噪：将所述非结构化语言中的图片、设置的动画、视频、音频无法解析的内容去除，形成纯文本文件；S12，数据元标识：对所述纯文本文件进行数据元标识处理，形成包含数据元识别和数据识别的文件File1；S13，标识分组排序：将所述文件File1中存储的数据元进行排序分组处理，去掉数据元间关联性小的数据元组后，构成一个不完整的数据元数据模型1，得到记录所述模型的文件File2；S14，数据元确认：将步骤S13中得到的文件File2依次进行M项缺失处理、数据元分布处理、数据元上下文关联处理、数据元关联关系处理、数据元完整性验证和数据元裁剪处理，得到具有非结构化语言的数据元的文件File8。2.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，所述数据元标识是将经过数据元识别的所述纯文本文件，再进行数据识别；具体按照下述方法实现：依据所述元数据复制文本中的数据元，标识所述纯文本文件中与其对应的数据元；然后再根据数据库中元数据仓库中存储的场景数据和特征数据，进行场景数据识别和特征数据识别，标识出所述纯文本文件与所述场景数据和所述特征数据具有映射关系的数据元，即得到包含数据元识别和数据识别的文件File1。3.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S13，具体按下述步骤实现：依据所述文件File1中的数据元识别的标识进行排序处理，得到多组数据元组，判断任意一个所述数据元组中各个数据元间的关联性是否符合关联阈值；若是符合所述关联阈值，则保留该组数据元；若是不符合所述关联阈值，则删除该组数据元；所述保留的数据元组构成不完整数据元数据模型，将其记录到所述文件File1中，得到文件File2。4.根据权利要求1所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S14中所述M项缺失处理，具体按照下述实现：依据所述文件File2中的不完整数据元数据模型，去除缺失M项实体中的所有数据元，保留含有M项实体中的所有数据元，得到文件File3。5.根据权利要求4所述基于6W语义标识的非结构化自然语言信息抽取方法，其特征在于，步骤S14中所述数据元分布处理，具体按照下述方法实现：S1421，依据所述元数据复制文本中各个实体中数据元的分布设定分布阈值，将所述文件File3中不完整数据元数据模型中的各个实体中的数据元的分布值与相应的分布阈值对比分析，保留所述不完整数据元数据模型中符合分布阈值的实体中的数据元，去除所述不完整数据元数据模型中不符合分布阈值的实体中的数据元；S1422，依据数据库中元数据仓库中存储的6W场景中的数据元，保留所述文...

【专利技术属性】
技术研发人员：贾磊，
申请(专利权)人：克拉玛依红有软件有限责任公司，
类型：发明
国别省市：新疆;65

全部详细技术资料下载我是这个专利的主人