基于非结构化文档的知识提取方法及系统技术方案

技术编号:22186078 阅读:23 留言:0更新日期:2019-09-25 03:37
本发明专利技术公开了基于非结构化文档的知识提取方法及系统,包括如下步骤,建立随机森林模型、导入非结构化文档、BERT处理、样本导入、展示提取的知识、对随机森林模型进行补充和修正,本发明专利技术结构科学合理,使用安全方便,通过BERT对非结构化文档进行预处理,通过双向特征,筛出词义准确的字词,保证知识提取的准确性,同时将决策后的知识字词进行展示,通过分为三类,便于使用者更准确了解非结构化文档的关键信息和次要信息,提高随机森林模型对非结构化文档字词的提取,同时数据存储内部存储有和字词相关的知识文档,并将提取的字词与字词相关的知识文档链接,通过点击字词能快速了解字词相关知识,提高对非结构化文档的了解。

Knowledge Extraction Method and System Based on Unstructured Documents

【技术实现步骤摘要】
基于非结构化文档的知识提取方法及系统
本专利技术涉及知识提取
,具体为基于非结构化文档的知识提取方法及系统。
技术介绍
非结构化文档是文本结构不规则或不完整,没有预定义的框架,因此在阅读和整理时需要对非结构化文档的知识进行提取,提高使用者观看非结构化文档的便捷;但是现有的非结构化文档的知识提取时,通过简单的算法对自然语言进行处理,其局限性较大,无法根据上下文分解词义,容易出现字词歧义的现象,进一步造成知识提取时出现偏差,因此人们急需一种基于非结构化文档的知识提取方法及系统来解决上述问题。
技术实现思路
本专利技术提供基于非结构化文档的知识提取方法及系统,可以有效解决上述
技术介绍
中提出的等问题。为实现上述目的,本专利技术提供如下技术方案:基于非结构化文档的知识提取方法,包括如下步骤:S1、建立随机森林模型;S2、导入非结构化文档;S3、BERT处理;S4、样本导入;S5、展示提取的知识;S6、对随机森林模型进行补充和修正。根据上述技术方案,所述步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。根据上述技术方案,所述步骤S3中,BERT是基于Transformer的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。根据上述技术方案,所述步骤S4中,具体包括如下步骤:(1)、将BERT处理后的M个字词导入到随机森林模型;(2)、设定数值N,N为样本字词导入个数,且N小于M;(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;(4)、设定数值X,X为决策树数量;(5)、从M个字词中选取N个样本字词;(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;(7)、决策树数量是否大于X,否则返回(6);(8)、样本字词在X个决策树的选取情况,输出提取的知识词语。根据上述技术方案,所述步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记为K,若K处于0-0.4X之间记为被否决字词,若K处于0.4X-0.7X之间记为次展示字词,若K处于0.7X-X之间记为展示字词。根据上述技术方案,所述步骤S5中,将展示字词和次展示字词图标向使用者展示,并将展示字词和次展示字词图标均设置为超链接形式,点击展示字词,将数据库内该展示字词相关知识显示给使用者观看阅读,点击次展示字词图标,切换展示页面,使得次展示字词箱使用者展示,并将次展示字词设置为超链接形式,点击次展示字词,将数据库内该次展示字词相关知识显示给使用者观看阅读。根据上述技术方案,所述步骤S6中,将展示字词和次展示字词中出现的决策错误同义词进行修改,并对随机森林模型中的特征进行补充完善。根据上述技术方案,基于非结构化文档的知识提取系统,所述基于非结构化文档的知识提取系统包括数据模块、采集模块、处理模块和执行模块;所述数据模块模块包括数据存储、数据修改和数据联网,所述采集模块包括网络文档导入和本地文档导入,所述处理模块包括BERT处理和决策树处理,所述执行模块包括显示屏展示和投影展示;所述采集模块、处理模块和执行模块三者均与数据模块连接,所述采集模块输出端与处理模块输入端相连接,所述处理模块输出端与执行模块输入端相连接。根据上述技术方案,所述采集模块包括网络文档导入和本地文档导入,所述网络文档导入是指将网络云端存储的文档导入至BERT处理区域,所述本地文档导入包括计算机硬盘存储文档和U盘存储文档,并将文档导入至BERT处理区域;所述处理模块包括BERT处理和决策树处理,所述BERT处理是指将输入的非结构文档译成单独的字词,所述决策树处理是将单独的字词通过随机森林模型进行决策输出。根据上述技术方案,所述数据模块模块包括数据存储、数据修改和数据联网,所述数据存储是对知识词语相关文档、系统运行编程以及计算机运行编程的存储,所述数据修改是随机森林模型的筛选特征进行修改,减少提取时同义词错误,所述数据联网使对数据存储内的数据联网更新,以保证系统正常的运行和准确的知识词语对应文档;所述执行模块包括显示屏展示和投影展示,所述显示屏展示是通过计算机显示屏向使用者展示提取的知识词语,供少量使用者交流观看,所述投影展示是指通过投影机将显示屏内容投影至幕布,供多位使用者同时观看交流,所述执行模块中展示的知识词语设置为超链接,提取的知识词语与数据存储中存储的知识词语相关文档相链接,点击展示的知识词语,获取相应的知识词语相关文档。与现有技术相比,本专利技术的有益效果:本专利技术结构科学合理,使用安全方便:通过BERT对非结构化文档进行预处理,通过双向特征,筛出词义准确的字词,保证知识提取的准确性,同时将决策后的知识字词进行展示,通过分为三类,便于使用者更准确了解非结构化文档的关键信息和次要信息,提高随机森林模型对非结构化文档字词的提取,同时数据存储内部存储有和字词相关的知识文档,并将提取的字词与字词相关的知识文档链接,通过点击字词能快速了解字词相关知识,提高对非结构化文档的了解,同时网络文档导入和本地文档导入便于使用者更便捷的将非结构化文档导入并进行处理,并通过显示屏和投影,便于选择少数人和多数人两者模式进行更换观看,便于不同人数的使用人群。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术的方法步骤图;图2是本专利技术样本导入的流程图;图3是本专利技术的系统框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:如图1-3所示,本专利技术提供一种技术方案,基于非结构化文档的知识提取方法,包括如下步骤:S1、建立随机森林模型;S2、导入非结构化文档;S3、BERT处理;S4、样本导入;S5、展示提取的知识;S6、对随机森林模型进行补充和修正。根据上述技术方案,步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。根据上述技术方案,步骤S3中,BERT是基于Transformer的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。根据上述技术方案,步骤S4中,具体包括如下步骤:(1)、将BERT处理后的M个字词导入到随机森林模型;(2)、设定数值N,N为样本字词导入个数,且N小于M;(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;(4)、设定数值X,X为决策树数量;(5)、从M个字词中选取N个样本字词;(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;(7)、决策树数量是否大于X,否则返回(6);(8)、样本字词在X个决策树的选取情况,输出提取的知识词语。根据上述技术方案,步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记本文档来自技高网...

【技术保护点】
1.基于非结构化文档的知识提取方法,其特征在于:包括如下步骤:S1、建立随机森林模型;S2、导入非结构化文档;S3、BERT处理;S4、样本导入;S5、展示提取的知识;S6、对随机森林模型进行补充和修正。

【技术特征摘要】
1.基于非结构化文档的知识提取方法,其特征在于:包括如下步骤:S1、建立随机森林模型;S2、导入非结构化文档;S3、BERT处理;S4、样本导入;S5、展示提取的知识;S6、对随机森林模型进行补充和修正。2.根据权利要求1所述的基于非结构化文档的知识提取方法,其特征在于:所述步骤S1中,建立随机森林模型具体为设定特征数值为Z个,导入训练集,通过Z个特征对字词进行决策,创建决策树选取符合特征的字词。3.根据权利要求1所述的基于非结构化文档的知识提取方法及系统,其特征在于:所述步骤S3中,BERT是基于Transformer的双向编码器表征,其根基就是Transformer,其中双向的意思表示它在处理一个词的时候,能考虑到该词前面和后面单词的信息,从而获取上下文的语义,将非结构化文档的文字转化为准确且无歧义的词语和字,并将词语或字的总数值记为M。4.根据权利要求3所述的基于非结构化文档的知识提取方法及系统,其特征在于:所述步骤S4中,具体包括如下步骤:(1)、将BERT处理后的M个字词导入到随机森林模型;(2)、设定数值N,N为样本字词导入个数,且N小于M;(3)、设定数值Y,Y为样本的决策特征,且Y小于Z;(4)、设定数值X,X为决策树数量;(5)、从M个字词中选取N个样本字词;(6)、N个样本字词分别随机选定Y个筛选特征进行创建决策树;(7)、决策树数量是否大于X,否则返回(6);(8)、样本字词在X个决策树的选取情况,输出提取的知识词语。5.根据权利要求4所述的基于非结构化文档的知识提取方法及系统,其特征在于:所述步骤(8)中在X个决策树中,单个样本字词决策后被选取数值记为K,若K处于0-0.4X之间记为被否决字词,若K处于0.4X-0.7X之间记为次展示字词,若K处于0.7X-X之间记为展示字词。6.根据权利要求1所述的基于非结构化文档的知识提取方法,其特征在于:所述步骤S5中,将展示字词和次展示字词图标向使用者展示,并将展示字词和次展示字词图标均设置为超链接形式,点击展示字词,将数据库内该展示字词相关知识显示给使用者观看阅读,点击次展示字词图标,切换展示页面,使得次展示字词箱使用者展示,并将次展示字词...

【专利技术属性】
技术研发人员:黄志春张定国谢海涛陈育翔伍宇文
申请(专利权)人:广州伟宏智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1