基于非结构化文档的知识提取方法及系统技术方案

技术编号：22186078 阅读：23 留言：0更新日期：2019-09-25 03:37

本发明专利技术公开了基于非结构化文档的知识提取方法及系统，包括如下步骤，建立随机森林模型、导入非结构化文档、BERT处理、样本导入、展示提取的知识、对随机森林模型进行补充和修正，本发明专利技术结构科学合理，使用安全方便，通过BERT对非结构化文档进行预处理，通过双向特征，筛出词义准确的字词，保证知识提取的准确性，同时将决策后的知识字词进行展示，通过分为三类，便于使用者更准确了解非结构化文档的关键信息和次要信息，提高随机森林模型对非结构化文档字词的提取，同时数据存储内部存储有和字词相关的知识文档，并将提取的字词与字词相关的知识文档链接，通过点击字词能快速了解字词相关知识，提高对非结构化文档的了解。

Knowledge Extraction Method and System Based on Unstructured Documents

全部详细技术资料下载

【技术实现步骤摘要】
基于非结构化文档的知识提取方法及系统
本专利技术涉及知识提取
，具体为基于非结构化文档的知识提取方法及系统。
技术介绍
非结构化文档是文本结构不规则或不完整，没有预定义的框架，因此在阅读和整理时需要对非结构化文档的知识进行提取，提高使用者观看非结构化文档的便捷；但是现有的非结构化文档的知识提取时，通过简单的算法对自然语言进行处理，其局限性较大，无法根据上下文分解词义，容易出现字词歧义的现象，进一步造成知识提取时出现偏差，因此人们急需一种基于非结构化文档的知识提取方法及系统来解决上述问题。
技术实现思路
本专利技术提供基于非结构化文档的知识提取方法及系统，可以有效解决上述
技术介绍
中提出的等问题。为实现上述目的，本专利技术提供如下技术方案：基于非结构化文档的知识提取方法，包括如下步骤：S1、建立随机森林模型；S2、导入非结构化文档；S3、BERT处理；S4、样本导入；S5、展示提取的知识；S6、对随机森林模型进行补充和修正。根据上述技术方案，所述步骤S1中，建立随机森林模型具体为设定特征数值为Z个，导入训练集，通过Z个特征对字词进行决策，创建决策树选取符合特征的字词。根据上述技术方案，所述步骤S3中，BERT是基于Transformer的双向编码器表征，其根基就是Transformer，其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义，将非结构化文档的文字转化为准确且无歧义的词语和字，并将词语或字的总数值记为M。根据上述技术方案，所述步骤S4中，具体包括如下步骤：(1)、将BERT处理后的M个字词导入到随机森林模...

【技术保护点】
1.基于非结构化文档的知识提取方法，其特征在于：包括如下步骤：S1、建立随机森林模型；S2、导入非结构化文档；S3、BERT处理；S4、样本导入；S5、展示提取的知识；S6、对随机森林模型进行补充和修正。

【技术特征摘要】
1.基于非结构化文档的知识提取方法，其特征在于：包括如下步骤：S1、建立随机森林模型；S2、导入非结构化文档；S3、BERT处理；S4、样本导入；S5、展示提取的知识；S6、对随机森林模型进行补充和修正。2.根据权利要求1所述的基于非结构化文档的知识提取方法，其特征在于：所述步骤S1中，建立随机森林模型具体为设定特征数值为Z个，导入训练集，通过Z个特征对字词进行决策，创建决策树选取符合特征的字词。3.根据权利要求1所述的基于非结构化文档的知识提取方法及系统，其特征在于：所述步骤S3中，BERT是基于Transformer的双向编码器表征，其根基就是Transformer，其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义，将非结构化文档的文字转化为准确且无歧义的词语和字，并将词语或字的总数值记为M。4.根据权利要求3所述的基于非结构化文档的知识提取方法及系统，其特征在于：所述步骤S4中，具体包括如下步骤：(1)、将BERT处理后的M个字词导入到随机森林模型；(2)、设定数值N，N为样本字词导入个数,且N小于M；(3)、设定数值Y，Y为样本的决策特征，且Y小于Z；(4)、设定数值X，X为决策树数量；(5)、从M个字词中选取N个样本字词；(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树；(7)、决策树数量是否大于X，否则返回(6)；(8)、样本字词在X个决策树的选取情况，输出提取的知识词语。5.根据权利要求4所述的基于非结构化文档的知识提取方法及系统，其特征在于：所述步骤(8)中在X个决策树中，单个样本字词决策后被选取数值记为K，若K处于0-0.4X之间记为被否决字词，若K处于0.4X-0.7X之间记为次展示字词，若K处于0.7X-X之间记为展示字词。6.根据权利要求1所述的基于非结构化文档的知识提取方法，其特征在于：所述步骤S5中，将展示字词和次展示字词图标向使用者展示，并将展示字词和次展示字词图标均设置为超链接形式，点击展示字词，将数据库内该展示字词相关知识显示给使用者观看阅读，点击次展示字词图标，切换展示页面，使得次展示字词箱使用者展示，并将次展示字词...

【专利技术属性】
技术研发人员：黄志春，张定国，谢海涛，陈育翔，伍宇文，
申请(专利权)人：广州伟宏智能科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人