【技术实现步骤摘要】
本专利技术涉及文本报告智能分析,尤其涉及一种基于人工反馈强化学习的自动化文本信息抽取方法。
技术介绍
1、目前,网络信息的发展进入到了一个全新的时代,相应产生的数据持续加速增长,大量的文本报告以自然语言的形式存在,文本文本报告成为文本报告分析过程中重要的信息来源,其中文本信息抽取是智能分析的重要环节,通过信息抽取将非结构化文本数据中的信息进行结构化,为后续的文本报告知识图谱构建、自动化计算、智能分析提供基础,人工分析处理文本报告、进行信息抽取需要具备一定的专业领域知识,且费时费力,评估效率低下,难以应对与日俱增的海量数据,对于一篇文本报告,相关信息通常分散在整篇文章中,各个要素之间存在错综复杂的关系,信息抽取的准确性显得尤为重要,甚至直接决定了后续文本报告分析的效果,针对这种情况,人们对自动化文本信息抽取方法进行了大量研究当前主要采用的信息抽取方法主要有:
2、1.基于人工规则的方法:首先了解需要抽取的文本信息特点,例如文本中常用的语法句法格式,文中关键句中常用的关键词等,通过了解抽取文本的特点运用正则表达式和spacy等p
...【技术保护点】
1.一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,包括以下步骤:S1:建立待抽取的命名实体、关系、事件的种类及具体形式;
2.根据权利要求1所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述命名实体包括人名、时间、地点、组织机构;关系包括常见人物亲属及社会关系;事件为文本报告分析业务关注的发表不满言论、不满管理、网上异常行为等。
3.根据权利要求1所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述收集开源中文语料数据中,按照一定比例替换其中的人名,并加入人工标注的文本报告业务数据,顺序
...【技术特征摘要】
1.一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,包括以下步骤:s1:建立待抽取的命名实体、关系、事件的种类及具体形式;
2.根据权利要求1所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述命名实体包括人名、时间、地点、组织机构;关系包括常见人物亲属及社会关系;事件为文本报告分析业务关注的发表不满言论、不满管理、网上异常行为等。
3.根据权利要求1所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述收集开源中文语料数据中,按照一定比例替换其中的人名,并加入人工标注的文本报告业务数据,顺序进行随机打乱,形成定制化的适用于人力文本报告的训练数据集。使用基于预训练语言模型的类bert网络对输入数据进行编码,后续接入lstm及globalpointer网络架构进行解码,完成命名实体识别网络搭建,使用梯度下降算法进行训练,调整各层参数,直至收敛完成训练。
4.根据权利要求1所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述人力文本报告训练段落分类模型,并结合业务专家总结的规则,使用模型+规则的方式对整篇人力文本报告的各段进行分类,分段后,使用基于标点符号的方法对每段语料进行分句。
5.根据权利要求4所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述模型分析结果由专家对少量数据进行分析,对不同种类的关系和事件建立基础抽取规则,规则具体为:什么样的触发词,前后有什么样的实体或关键词,属于什么样的关系或事件要素,例如:人名+造谣说。
6.根据权利要求5所述的一种基于人工反馈强化学习的自动化文本信息抽取方法,其特征在于,所述人名通过ner识别结果,所述造谣说的触发词,词性分析结果为动词,依存句法分析为人名...
【专利技术属性】
技术研发人员:薛庆昊,王瑾,赵猛,林建平,耿秋实,樊轶,原振华,
申请(专利权)人:中电科电科院科技集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。