一种基于智能选词的文本标注系统及装置、设备、介质制造方法及图纸

技术编号:22817103 阅读:33 留言:0更新日期:2019-12-14 13:09
本申请公开了一种基于智能选词的文本标注系统及设备、介质。所述系统包括智能选词模块、标注模块;智能选词模块,通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,智能选词模型是根据预先标注的样本文本训练得到的,标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;标注模块,根据智能选词模块获取的可标注的标签,对所述隐患描述文本进行标注。本申请通过标注模块与基于机器学习的智能选词模块的配合,能够智能高效地对隐患描述文件进行自动标注,即使隐患描述文本数量较多,仍然能够达到较高的准确度。

A text annotation system based on intelligent word selection and its device, equipment and medium

【技术实现步骤摘要】
一种基于智能选词的文本标注系统及装置、设备、介质
本申请涉及石油石化行业
,尤其涉及一种基于智能选词的文本标注系统及设备、介质。
技术介绍
石油石化行业是高风险行业,各个国家、企业、国际或地区性组织都在积极总结和探索企业安全管理的模式和办法,企业在指定安全生产规划、目标、考核指标以及资源配置时,需要参考有效的隐患信息和相关数据,而这些隐患数据是通过现场安全检查的方式,由现场安全人员人工记录的针对某项作业或者某种设备的小段文字描述。对于企业来说,由于有众多的设备和繁多的现场作业事项,每天会产生成百上千这样的文字隐患描述内容,日积月累,每年的隐患数量将会是很大的一个数量级。要从这么大数据量的非结构化文字隐患描述中挖掘出有用的信息,需要对这些隐患描述文本进行结构化处理,提取出所需的各项统计指标,从而进行下一步的分析处理。现阶段对隐患描述文本进行处理,需要人工对每一段文本进行标注,从而得到相关类别的文字描述,这种人工标注方式效率低下,当隐患描述文本数量较多时,准确度也会受到不利影响。
技术实现思路
本申请实施例提供一种基于智能选词的文本标注系统及设备、介质,用以解决现有技术中的如下技术问题:针对隐患描述文本的人工标注方式效率低下,当隐患描述文本数量较多时,准确度也会受到不利影响。本申请实施例采用下述技术方案:一种基于智能选词的文本标注系统,包括智能选词模块、标注模块;所述智能选词模块,通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,所述智能选词模型是根据预先标注的样本文本训练得到的,所述标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;所述标注模块,根据所述智能选词模块获取的所述可标注的标签,对所述隐患描述文本进行标注。可选地,所述标注模块,还接收人工指定的标签,并根据所述人工指定的标签,对所述样本文本进行预先标注,或者对所述隐患描述文本进行标注。可选地,所述智能选词模块执行:在所述标注模块根据所述人工指定的标签,所预先标注的样本文本的数量达到第一数量阈值后,利用已标注的样本文本,对所述智能选词模型进行初步训练;利用初步训练后的智能选词模型辅助人工,继续标注样本文本;在所继续标注的样本文本的数量达到第二数量阈值后,利用已标注的样本文本,对所述智能选词模型进行增强训练,直到所述智能选词模型的准确度达到预期标准。可选地,所述智能选词模块,获取对所述待标注的隐患描述文本的分词结果,将所述分词结果中的各词转换为相应的词向量输入所述智能选词模型,获得所述智能选词模型相应输出的可标注的标签及其对应的词。可选地,所述智能选词模型是基于神经网络的,按照如下方式训练:建立预先标注的样本文本中各词的初始化向量,其中,至少部分所述词对应标注有所述标签;分别为所述各词在所述样本文本中确定多个上下文词,根据所述各词及其上下文词的初始化向量,生成所述各词对应的训练样本;利用所述训练样本及其对应的标签,有监督训练所述智能选词模型。可选地,有监督训练所述智能选词模型,包括:对所述训练样本分批次地有监督训练所述智能选词模型,其中,每个批次由一个或者多个词对应的全部训练样本构成。可选地,建立预先标注的样本文本中各词的初始化向量,包括:从预先标注的样本文本中选取至少部分词;为所述至少部分词分别建立独热(one-hot)向量,作为其初始化向量;为所述至少部分词之外的词分别建立全0向量,作为其初始化向量。可选地,在所述智能选词模型达到预定的训练程度后,所述智能选词模块输出其神经网络的隐藏层的权重矩阵,根据所述权重矩阵,生成所述样本文本中各词的词向量。一种基于智能选词的文本标注设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,所述智能选词模型是根据预先标注的样本文本训练得到的,所述标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;根据获取的所述可标注的标签,对所述隐患描述文本进行标注。一种基于智能选词的文本标注非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,所述智能选词模型是根据预先标注的样本文本训练得到的,所述标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;根据获取的所述可标注的标签,对所述隐患描述文本进行标注。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:通过标注模块与基于机器学习的智能选词模块的配合,能够智能高效地对隐患描述文件进行自动标注,即使隐患描述文本数量较多,仍然能够达到较高的准确度。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请的一些实施例提供的一种基于智能选词的文本标注系统的结构示意图;图2为本申请的一些实施例提供的一种应用场景下,图1中的文本标注系统涉及的智能选词模型涉及的一种业务流程示意图;图3为本申请的一些实施例提供的一种应用场景下,图1中的文本标注系统涉及的智能选词模型的一种训练流程示意图;图4为本申请的一些实施例提供的一种应用场景下,图1中的文本标注系统涉及的智能选词模型的神经网络结构示意图;图5为本申请的一些实施例提供的对应于图1的一种基于智能选词的文本标注设备的结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请的一些实施例提供的一种基于智能选词的文本标注系统的结构示意图。图1中的文本标注系统包括智能选词模块100、标注模块102。智能选词模块100,通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,智能选词模型是基于机器学习的,根据预先标注的样本文本训练得到的,标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;标注模块102,根据智能选词模块获取的可标注的标签,对隐患描述文本进行标注。简明起见,后续省略模块的标号,只使用模块的名称进行描述。标注模块是要从一条完整的隐患描述文本中抽取出诸本文档来自技高网...

【技术保护点】
1.一种基于智能选词的文本标注系统,其特征在于,包括智能选词模块、标注模块;/n所述智能选词模块,通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,所述智能选词模型是根据预先标注的样本文本训练得到的,所述标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;/n所述标注模块,根据所述智能选词模块获取的所述可标注的标签,对所述隐患描述文本进行标注。/n

【技术特征摘要】
1.一种基于智能选词的文本标注系统,其特征在于,包括智能选词模块、标注模块;
所述智能选词模块,通过智能选词模型,在待标注的隐患描述文本中获取可标注的标签,其中,所述智能选词模型是根据预先标注的样本文本训练得到的,所述标签属于以下至少一类信息类型:隐患主体、隐患位置、隐患状态、隐患类别、隐患原因、隐患危害;
所述标注模块,根据所述智能选词模块获取的所述可标注的标签,对所述隐患描述文本进行标注。


2.如权利要求1所述的系统,其特征在于,所述标注模块,还接收人工指定的标签,并根据所述人工指定的标签,对所述样本文本进行预先标注,或者对所述隐患描述文本进行标注。


3.如权利要求2所述的系统,其特征在于,所述智能选词模块执行:
在所述标注模块根据所述人工指定的标签,所预先标注的样本文本的数量达到第一数量阈值后,利用已标注的样本文本,对所述智能选词模型进行初步训练;
利用初步训练后的智能选词模型辅助人工,继续标注样本文本;
在所继续标注的样本文本的数量达到第二数量阈值后,利用已标注的样本文本,对所述智能选词模型进行增强训练,直到所述智能选词模型的准确度达到预期标准。


4.如权利要求1所述的系统,其特征在于,所述智能选词模块,获取对所述待标注的隐患描述文本的分词结果,将所述分词结果中的各词转换为相应的词向量输入所述智能选词模型,获得所述智能选词模型相应输出的可标注的标签及其对应的词。


5.如权利要求1所述的系统,其特征在于,所述智能选词模型是基于神经网络的,按照如下方式训练:
建立预先标注的样本文本中各词的初始化向量,其中,至少部分所述词对应标注有所述标签;
分别为所述各词在所述样本文本中确定多个上下文词,根据所述各词及其上下文词的初始化向量,生成所述各词对应的训练样本;
利用所述训练样本及其对应的标签,有监督训练所述智能选词模型。

【专利技术属性】
技术研发人员:庄浩刘鑫张继勇蔡恒燕晓云
申请(专利权)人:华瑞新智科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1