语料标注方法、装置及设备制造方法及图纸

技术编号:28215880 阅读:55 留言:0更新日期:2021-04-24 14:59
本申请公开了一种语料标注方法、装置及设备,涉及人工智能技术领域,能够批量化生成不同违规类型的文本语料,节省语料标注时间。其中方法包括:对不同业务场景下文本数据进行断句处理,将断句处理后形成的文本语料保存至语料数据库;以语义点为单位将预先设置的标准违规描述划分至不同违规类别;根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,建立关键词语义规则,所述关键词语义规则为针对标准违规描述在不同违规类别上映射的违规表达式;利用所述违规表达式从所述语料数据库中匹配出包含有不同违规类别的目标文本语料,并基于违规类别对所述目标文本语料进行标注。基于违规类别对所述目标文本语料进行标注。基于违规类别对所述目标文本语料进行标注。

【技术实现步骤摘要】
语料标注方法、装置及设备


[0001]本申请涉及人工智能
,尤其是涉及到一种语料标注方法、装置及设备。

技术介绍

[0002]为了促进企业销售、开拓市场和提高客户满意度,企业通常广泛使用客服中心来触达客户,该过程会产生庞大的通话记录和聊天记录,以对客服质量进行监控,主要针对客服是否使用违规用语进行识别,例如,检测客服人员是否使用规范用语,检测客服人员是否推广规定产品。
[0003]传统的人工质检效率低下,劳动重复性大,目前借助人工智能技术,使用自然语言处理技术进行预训练识别模型,可以辅助识别违规用语,大幅提高识别效率。但是,在使用自然语言处理技术过程中需要使用大量语料训练识别模型,尤其是越复杂的语义所需要的语料越多,而在实际应用场景中,大量语料的标注过程需要耗费众多人力成本,提高了技术成本,甚至很多复杂业务场景很难提供足额语料,使得识别模型训练结果不达标,导致模型针对违规用语的识别效果无法达到理论上的准确率。

技术实现思路

[0004]有鉴于此,本申请提供了一种语料标注方法、装置及设备,主要目的在于解决现有技术中语料标注过程人力成本高以及复杂场景下语料不足的问题。
[0005]根据本申请的第一个方面,提供了一种语料标注方法,该方法包括:对不同业务场景下文本数据进行断句处理,将断句处理后形成的文本语料保存至语料数据库;以语义点为单位将预先设置的标准违规描述划分至不同违规类别;根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,建立关键词语义规则,所述关键词语义规则为针对标准违规描述在不同违规类别上映射的违规表达式;利用所述违规表达式从所述语料数据库中匹配出包含有不同违规类别的目标文本语料,并基于违规类别对所述目标文本语料进行标注。
[0006]进一步地,所述对不同业务场景下文本数据进行断句处理,具体包括:按照文本数据中交互发起的时间顺序,将不同业务场景下的文本数据以句子为单位进行拆分,获取交互发起方对应的文本语料;根据所述交互发起方对应的文本语料映射的文本长度,对所述文本语料进行拆分和/或合并处理。
[0007]进一步地,所述根据所述交互发起方对应的文本语料映射的文本长度,对所述文本语料进行拆分和/或合并处理,具体包括:将所述交互发起方对应的文本语料映射的文本长度与预设文本长度范围进行比对;针对所述文本长度大于预设文本长度范围中最大值的文本语料,对所述文本语料
进行拆分处理;针对所述文本长度小于预设文本长度范围中最小值的文本语料,对所述文本语料进行合并处理。
[0008]进一步地,所述语义点为包含至少一个实体概念的单句或者复句,所述以语义点为单位将预先设置的标准违规描述划分至不同违规类别,具体包括:以语义点为单位,从预先设置的标准违规描述中提取包含至少一个实体概念的单句或者复句;计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度;根据所述违规特征度,将所述包含至少一个实体概念的单句或者复句划分至不同违规类别。
[0009]进一步地,所述计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度,具体包括:针对所述包含至少一个实体概念的单句或者复句,提取实体概念以及实体概念之间的逻辑关系;通过将所述实体概念以及所述实体概念之间的逻辑关系与不同违规类别上的违规特征进行匹配,计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度。
[0010]进一步地,所述根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,建立关键词语义规则,具体包括:根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,确定关键词之间的逻辑运算条件;按照所述关键词之间的逻辑运算条件,建立关键词语义规则。
[0011]进一步地,所述利用所述违规表达式从所述语料数据库中匹配出包含有不同违规类别的目标文本语料,具体包括:利用关键词语义规则,将所述关键词语义规则中涉及的实体概念以及逻辑关系映射为语料查询表达式;根据所述语料查询表达式,从所述语料数据库中匹配出包含有不同违规类别的目标文本语料。
[0012]进一步地,在所述以语义点为单位将预先设置的标准违规描述划分至不同违规类别之后,所述方法还包括:针对每个违规类别,构建识别模型,所述识别模型用于基于输入的交互文本识别出违规文本;将标注后的目标文本语料形成样本数据和测试数据,使用所述样本数据和测试数据对每个违规类别的识别模型进行训练。
[0013]根据本申请的第二个方面,提供了一种语料标注装置,该装置包括:处理单元,用于对不同业务场景下文本数据进行断句处理,将断句处理后形成的文本语料保存至语料数据库;划分单元,用于以语义点为单位将预先设置的标准违规描述划分至不同违规类
别;建立单元,用于根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,建立关键词语义规则,所述关键词语义规则为针对标准违规描述在不同违规类别上映射的违规表达式;标注单元,用于利用所述违规表达式从所述语料数据库中匹配出包含有不同违规类别的目标文本语料,并基于违规类别对所述目标文本语料进行标注进一步地,所述处理单元包括:拆分模块,用于按照文本数据中交互发起的时间顺序,将不同业务场景下的文本数据以句子为单位进行拆分,获取交互发起方对应的文本语料;处理模块,用于根据所述交互发起方对应的文本语料映射的文本长度,对所述文本语料进行拆分和/或合并处理。
[0014]进一步地,所述处理模块,具体用于将所述交互发起方对应的文本语料映射的文本长度与预设文本长度范围进行比对;所述处理模块,具体还用于针对所述文本长度大于预设文本长度范围中最大值的文本语料,对所述文本语料进行拆分处理;所述处理模块,具体还用于针对所述文本长度小于预设文本长度范围中最小值的文本语料,对所述文本语料进行合并处理。
[0015]进一步地,所述语义点为包含至少一个实体概念的单句或者复句,所述划分单元包括:提取模块,用于以语义点为单位,从预先设置的标准违规描述中提取包含至少一个实体概念的单句或者复句;计算模块,用于计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度;划分模块,用于根据所述违规特征度,将所述包含至少一个实体概念的单句或者复句划分至不同违规类别。
[0016]进一步地,所述计算模块包括:提取子模块,用于针对所述包含至少一个实体概念的单句或者复句,提取实体概念以及实体概念之间的逻辑关系;匹配子模块,用于通过将所述实体概念以及所述实体概念之间的逻辑关系与不同违规类别上的违规特征进行匹配,计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度。
[0017]进一步地,所述建立单元包括:确定模块,用于根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,确定关键词之间的逻辑运算条件;建立模块,用于按照所述关键词之间的逻辑运算条件,建立关键词语义规则。
[0018]进一步地,所述标注单元包括:映射模块,用于利用关键词语义规则,将所述关键词语义规则中涉及的实体概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料标注方法,其特征在于,包括:对不同业务场景下文本数据进行断句处理,将断句处理后形成的文本语料保存至语料数据库;以语义点为单位将预先设置的标准违规描述划分至不同违规类别;根据所述语义点包含的实体概念以及实体概念之间的逻辑关系,建立关键词语义规则,所述关键词语义规则为针对标准违规描述在不同违规类别上映射的违规表达式;利用所述违规表达式从所述语料数据库中匹配出包含有不同违规类别的目标文本语料,并基于违规类别对所述目标文本语料进行标注。2.根据权利要求1所述的方法,其特征在于,所述对不同业务场景下文本数据进行断句处理,具体包括:按照文本数据中交互发起的时间顺序,将不同业务场景下的文本数据以句子为单位进行拆分,获取交互发起方对应的文本语料;根据所述交互发起方对应的文本语料映射的文本长度,对所述文本语料进行拆分和/或合并处理。3.根据权利要求2所述的方法,其特征在于,所述根据所述交互发起方对应的文本语料映射的文本长度,对所述文本语料进行拆分和/或合并处理,具体包括:将所述交互发起方对应的文本语料映射的文本长度与预设文本长度范围进行比对;针对所述文本长度大于预设文本长度范围中最大值的文本语料,对所述文本语料进行拆分处理;针对所述文本长度小于预设文本长度范围中最小值的文本语料,对所述文本语料进行合并处理。4.根据权利要求1所述的方法,其特征在于,所述语义点为包含至少一个实体概念的单句或者复句,所述以语义点为单位将预先设置的标准违规描述划分至不同违规类别,具体包括:以语义点为单位,从预先设置的标准违规描述中提取包含至少一个实体概念的单句或者复句;计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度;根据所述违规特征度,将所述包含至少一个实体概念的单句或者复句划分至不同违规类别。5.根据权利要求4所述的方法,其特征在于,所述计算所述包含至少一个实体概念的单句或者复句映射在不同违规类别上的违规特征度,具体包括:针对所述包含至少一个实体概念的单句或者复句,提取实体概念以及实体概念之间的逻辑关系;通过将所述实体概念以及所述实体概念之间的逻辑关系与不同违规类别上的违规特征进行匹配,计算所...

【专利技术属性】
技术研发人员:袁徐磊宋鑫肖鹏
申请(专利权)人:北京健康之家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1