【技术实现步骤摘要】
一种文本标注方法及装置
本申请涉及人工智能
,尤其涉及一种文本标注方法及装置。
技术介绍
随着语音相关技术的飞速进步、人工智能领域的快速崛起,用于支持人机对话的语义理解技术越来越受到关注。目前的语义理解技术,包括基于规则的文本处理方案、基于深度学习的统计模型方案等,但这些方案均需要大量的人工标注数据,有些情况下,人工标注的数据很难将所有的场景和真实的用户说法完全覆盖,导致语义理解系统不能很好的进行用户请求的理解,体验较差。在由人工标注数据时,一般是由人工标注文本中每个词条的标签,在一种标签标注方法中,是对文本中每个词条所属的语义槽进行标注,其中,语义槽是指具有语义信息的文本片段,如音乐领域的语义槽列表包括歌曲名、歌手名、专辑名等语义槽。但通过人工对文本进行语义槽标注,比如由特定领域内的专家进行标注,人工成本较高,并且,在标注人员较多的情况下,标注的一致性也会存在问题。
技术实现思路
本申请实施例的主要目的在于提供一种文本标注方法及装置,不但能够降低标注成本,还能提高标注结果的一致性。本申请实施例提供了一种文本标注方法,包括:获取待标注的目标文本;确定所述目标文本所属的特定领域;利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。可选的,所述利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,作为各个检索值;将所述目标文本进行片段分割,得到各个文本片段;根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词 ...
【技术保护点】
1.一种文本标注方法,其特征在于,包括:获取待标注的目标文本;确定所述目标文本所属的特定领域;利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。
【技术特征摘要】
1.一种文本标注方法,其特征在于,包括:获取待标注的目标文本;确定所述目标文本所属的特定领域;利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。2.根据权利要求1所述的方法,其特征在于,所述利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,作为各个检索值;将所述目标文本进行片段分割,得到各个文本片段;根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注。3.根据权利要求2所述的方法,其特征在于,所述在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到出现在所述目标文本中的各个值;和/或,将所述目标文本按照预设表现形式进行转换,得到转换文本,在转换数据中检索各个字段下的各个值,得到出现在所述转换文本中的各个值,所述转换数据是将所述特定领域内的结构化数据按照所述预设表现形式进行转换的结果;按照所述结构化数据的原始表现形式,将检索到的各个值在所述结构化数据的各条数据下进行去重合并。4.根据权利要求2所述的方法,其特征在于,所述各个文本片段中包括至少一种类型的文本片段,不同类型的文本片段具有不同的文本单元个数。5.根据权利要求2所述的方法,其特征在于,所述根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注,包括:根据各个检索值与各个文本片段之间的匹配结果,生成所述目标文本中的每一文本单元在各个预设标签上的统计信息;根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注。6.根据权利要求5所述的方法,其特征在于,所述文本片段对应于所述文本片段中的一个文本单元;所述生成所述目标文本中的每一文本单元在各个预设标签上的统计信息,包括:在生成所述文本单元对应的统计信息时,对于各个检索值,若所述检索值包含所述文本单元对应的文本片段,则确定出所述检索值在所述结构化数据中所属的字段,并确定出所述文本单元在所述检索值中的位置;将确定的字段和位置对应的预设标签上的统计值加1。7.根据权利要求5所述的方法,其特征在于,所述根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注,包括:根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,以及各个预设标签之间的跳转概率,对所述目标文本中的各个词条进行语义槽标注。8.根据权利要求1至7任一项所述的方法,其特征在于,所述对所述目标文本中的各个词条进行语义槽标注,包括:采用维特比算法,对所述目标文本中的各个词条进行语义槽标注。9.根据权利要求1至7任一项所述的方法,其特征在于,所述对所述目标文本中的各个词条进行语义槽标...
【专利技术属性】
技术研发人员:梅林海,杨强,陈志刚,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。