一种基于远程监督的信息分类方法及系统技术方案

技术编号:31801378 阅读:52 留言:0更新日期:2022-01-08 11:02
本申请公开了一种基于远程监督的信息分类方法及系统,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。避免引入噪声数据。避免引入噪声数据。

【技术实现步骤摘要】
一种基于远程监督的信息分类方法及系统


[0001]本申请涉及自然语言处理领域,尤其涉及一种基于远程监督的信息分类方法及系统。

技术介绍

[0002]远程监督算法是将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体关系对文本进行标注。
[0003]然而,利用远程监督算法在进行数据分类过程中可能会引入大量的噪声数据,如:在建模时会将不是表达某种关系的句子当做表达这种关系的句子,或者将表达某种关系的句子当做不表达这种关系的句子,从而引入噪声数据。

技术实现思路

[0004]有鉴于此,本申请提供一种基于远程监督的信息分类方法及系统,其具体方案如下:
[0005]一种基于远程监督的信息分类方法,包括:
[0006]确定句子中的实体词语对,以及所述实体词语对中的每个实体词语在所述句子中的位置;
[0007]将所述实体词语对及每个所述实体词语在所述句子中的位置输入至卷积神经网络模型;
[0008]基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息;
[0009]基于所述句子中的多个特征信息确定所述实体词语对的语义关系。
[0010]进一步的,所述基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息,包括:
[0011]将所述实体词语对中的每个实体词语所在的位置作为所述句子的分界点;
[0012]以所述句子的分界点为基准,将所述句子分为n+1段分句,所述实体词语对中的实体词语为n个,n为大于1的正整数;
[0013]获取所述n+1段分句对应的n+1个特征信息,将其作为所述句子的特征信息。
[0014]进一步的,所述确定句子中的实体词语对,包括:
[0015]确定句子集,所述句子集中包括不少于一个句子;
[0016]确定所述句子集中的实体词语对,所述句子集中的实体词语对为从所述句子集中的任意一个句子中均能够提取出的实体词语。
[0017]进一步的,所述基于所述句子中的多个特征信息确定所述实体词语对的语义关系,包括:
[0018]确定所述句子集中每个句子的第一权重信息;
[0019]基于所述句子集中每个句子中的多个特征信息,以及,所述句子集中每个句子的
权重信息确定所述句子集中不少于一个句子的多个特征信息中每个特征信息的第二权重信息;
[0020]基于所述第二权重信息确定所述实体词语对的语义关系。
[0021]进一步的,所述基于所述句子中的多个特征信息确定所述实体词语对的语义关系,包括:
[0022]基于预先训练的分类器以及所述句子中的多个特征信息确定所述实体词语对的语义关系。
[0023]进一步的,还包括:预先训练分类器,
[0024]其中,所述预先训练分类器,包括:
[0025]确定所述训练语料库中句子的实体词语对;
[0026]基于知识图谱中实体对的对应关系确定所述训练语料库中句子的实体词语对的关联关系;
[0027]提取所述训练语料库中的句子的文本特征,基于所述文本特征及所述训练语料库中句子的实体词语对的关联关系确定所述实体对的特征向量;
[0028]基于所述实体对的特征向量训练所述分类器。
[0029]一种基于远程监督的信息分类系统,包括:
[0030]第一确定单元,用于确定句子中的实体词语对,以及所述实体词语对中的每个实体词语在所述句子中的位置;
[0031]输入单元,用于将所述实体词语对及每个所述实体词语在所述句子中的位置输入至卷积神经网络模型;
[0032]提取单元,用于基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息;
[0033]第二确定单元,用于基于所述句子中的多个特征信息确定所述实体词语对的语义关系。
[0034]进一步的,所述提取单元用于:
[0035]将所述实体词语对中的每个实体词语作为所述句子的分界点;以所述句子的分界点为基准,将所述句子分为n+1段分句,所述实体词语对中的实体词语为n个,n为大于1的正整数;获取所述n+1段分句对应的n+1个特征信息,将其作为所述句子的特征信息。
[0036]进一步的,所述第一确定单元用于:
[0037]确定句子集,所述句子集中包括不少于一个句子;确定所述句子集中的实体词语对,所述句子集中的实体词语对为从所述句子集中的任意一个句子中均能够提取出的实体词语。
[0038]进一步的,所述第二确定单元用于:
[0039]确定所述句子集中每个句子的第一权重信息;基于所述句子集中每个句子中的多个特征信息,以及,所述句子集中每个句子的权重信息确定所述句子集中不少于一个句子的多个特征信息中每个特征信息的第二权重信息;基于所述第二权重信息确定所述实体词语对的语义关系。
[0040]从上述技术方案可以看出,本申请公开的基于远程监督的信息分类方法及系统,确定句子中的实体词语对,以及实体词语对中的每个实体词语在句子中的位置,将实体词
语对以及每个实体词语在句子中的位置输入至卷积神经网络模型,基于实体词语对中的每个实体词语在句子中的位置提取句子中的多个特征信息,基于句子中的多个特征信息确定实体词语对的语义关系。本方案中在将实体词语对及每个实体词语在句子中的位置输入至卷积神经网络模型后,在该模型中,基于每个实体词语在句子中的位置提取句子的多个特征信息进行池化,以更好的确定两个实体词语间的结构化信息,便于精确分类,提高对句子中实体对之间关系确定的精确度,避免引入噪声数据。
附图说明
[0041]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1为本申请实施例公开的一种基于远程监督的信息分类方法的流程图;
[0043]图2为本申请实施例公开的一种基于远程监督的信息分类方法的流程图;
[0044]图3为本申请实施例公开的一种卷积神经网络模型的示意图;
[0045]图4为本申请实施例公开的一种基于远程监督的信息分类方法的流程图;
[0046]图5为本申请实施例公开的一种信息抽取架构的示意图;
[0047]图6为本申请实施例公开的一种基于远程监督的信息分类系统的结构示意图。
具体实施方式
[0048]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0049]本申请公开了一种基于远程监督的信息分类方法,其流本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于远程监督的信息分类方法,其特征在于,包括:确定句子中的实体词语对,以及所述实体词语对中的每个实体词语在所述句子中的位置;将所述实体词语对及每个所述实体词语在所述句子中的位置输入至卷积神经网络模型;基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息;基于所述句子中的多个特征信息确定所述实体词语对的语义关系。2.根据权利要求1所述的方法,其特征在于,所述基于所述实体词语对中的每个实体词语在所述句子中的位置提取所述句子中的多个特征信息,包括:将所述实体词语对中的每个实体词语所在的位置作为所述句子的分界点;以所述句子的分界点为基准,将所述句子分为n+1段分句,所述实体词语对中的实体词语为n个,n为大于1的正整数;获取所述n+1段分句对应的n+1个特征信息,将其作为所述句子的特征信息。3.根据权利要求1所述的方法,其特征在于,所述确定句子中的实体词语对,包括:确定句子集,所述句子集中包括不少于一个句子;确定所述句子集中的实体词语对,所述句子集中的实体词语对为从所述句子集中的任意一个句子中均能够提取出的实体词语。4.根据权利要求3所述的方法,其特征在于,所述基于所述句子中的多个特征信息确定所述实体词语对的语义关系,包括:确定所述句子集中每个句子的第一权重信息;基于所述句子集中每个句子中的多个特征信息,以及,所述句子集中每个句子的权重信息确定所述句子集中不少于一个句子的多个特征信息中每个特征信息的第二权重信息;基于所述第二权重信息确定所述实体词语对的语义关系。5.根据权利要求1所述的方法,其特征在于,所述基于所述句子中的多个特征信息确定所述实体词语对的语义关系,包括:基于预先训练的分类器以及所述句子中的多个特征信息确定所述实体词语对的语义关系。6.根据权利要求5所述的方法,其特征在于,还包括:预先训练分类器,其中...

【专利技术属性】
技术研发人员:孙喜民武兰民周晶贾江凯王帅王明达
申请(专利权)人:国网电商科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1