【技术实现步骤摘要】
信息标注方法、信息处理方法及装置
本申请涉及但不限于人工智能技术,尤指一种信息标注方法、信息处理方法及装置。
技术介绍
为了实现机器对信息的自动识别,会预先让机器对相关信息进行学习,以使机器具备根据学习的结果对信息进行自动识别的能力。机器可以根据对训练数据的人工标注,对训练数据进行学习以产生出相应的模型,而得到的模型则可以应用来对待识别的数据进行识别。举个例子来看,假设有1000张预先人工标注有“苹果”的图片,机器通过对这些标注后的图片的学习得到一个模型,如果将苹果的图片作为输入信息输入该模型,那么机器可以识别出这张图片上的信息是苹果。特别是对于数据量大而且具有私密性的数据如公安场景下的信息处理,如果采用人工标注来实现数据的学习的话,一方面无法保证高效,另一方面破坏了数据的私密性。
技术实现思路
本申请提供一种信息标注方法、信息处理方法及装置,能够实现高效的处理,而且保证信息的私密性不受到破坏。本专利技术实施例提供了一种信息标注方法,包括:对第一信息进行人工标注,并以人工标 ...
【技术保护点】
1.一种信息标注方法,包括:/n对第一信息进行人工标注,并以人工标注后的第一信息作为第一训练数据生成关系抽取模型;/n将第二信息输入关系抽取模型,计算得到实体关系实例;/n利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注,获取第二训练数据。/n
【技术特征摘要】
1.一种信息标注方法,包括:
对第一信息进行人工标注,并以人工标注后的第一信息作为第一训练数据生成关系抽取模型;
将第二信息输入关系抽取模型,计算得到实体关系实例;
利用计算出的实体关系实例对第二信息对应的待处理信息进行自动标注,获取第二训练数据。
2.根据权利要求1所述的信息标注方法,所述方法还包括:
利用所述第二训练数据对所述关系抽取模型进行训练,生成信息处理模型。
3.根据权利要求1或2所述的信息标注方法,其中,所述第二信息的数量大于所述第一信息的数量。
4.根据权利要求1或2所述的信息标注方法,其中,所述获取第二训练数据,包括:
对所述第二信息对应的待处理信息进行分词、实体识别处理;
在识别出的实体中匹配出计算得到的所述实体关系实例中的实体;
从所述第二信息对应的待处理信息中抽取同时匹配所述实体关系实例中的关系的两个实体的文本作为所述第二训练数据。
5.根据权利要求4所述的信息标注方法,所述方法还包括:对所述第二训练数据进行过滤以删除错误的实例。
6.根据权利要求5所述的信息标注方法,其中,所述对所述第二训练数据进行过滤,包括:
根据所述抽取的文本中实体间的距离确定两个实体之间具有存在关系的可能性;
删除可能性小于预先设置的第一阈值的所述抽取的文本。
7.根据权利要求6所述的信息标注方法,其中,所述确定两个实体之间存在关系的可能性,包括:
所述实体间的距离包括:表示两个实体词之间间隔的词的个数的词距离Dw、表示两个实体间最短依存路径上词的个数的依存距离Dd、表示两个实体在句法树上最短路径上词的个数的句法距离Ds、表示两个实体之间间隔的其他实体的个数的实体距离De;
当Dw<Tw且Dd<Td且Ds<Ts且De<Te时,所述两个实体之间具有存在关系的可能性;
其中,Tw为词距离阈值、Td为依存距离阈值、Ts为句法距离阈值、Te为实体距离阈值。
8.根据权利...
【专利技术属性】
技术研发人员:王潇斌,马春平,谢朋峻,李林琳,司罗,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。