一种文本标注方法及装置制造方法及图纸

技术编号:21432518 阅读:38 留言:0更新日期:2019-06-22 12:01
本申请公开了一种文本标注方法及装置,该方法包括:在获取到待标注的目标文本后,可以先确定出目标文本所属的特定领域,然后,利用该特定领域内的结构化数据,对目标文本中的各个词条进行语义槽标注。可见,本申请采用的标注依据是目标文本所属的特定领域的结构化数据,由于该结构化数据包含了各个字段以及每一字段下的值,且每个字段通常代表该特定领域内的语义槽,故而,可以利用该结构化数据对目标文本中的各个词条进行语义槽标注,而无需人工标注,从而降低了人工标注成本;此外,由于结构化数据的字段与字段值之间的对应关系是固定的,这使得基于该结构化数据进行语义槽标注,能够保证标注结果的一致性。

【技术实现步骤摘要】
一种文本标注方法及装置
本申请涉及人工智能
,尤其涉及一种文本标注方法及装置。
技术介绍
随着语音相关技术的飞速进步、人工智能领域的快速崛起,用于支持人机对话的语义理解技术越来越受到关注。目前的语义理解技术,包括基于规则的文本处理方案、基于深度学习的统计模型方案等,但这些方案均需要大量的人工标注数据,有些情况下,人工标注的数据很难将所有的场景和真实的用户说法完全覆盖,导致语义理解系统不能很好的进行用户请求的理解,体验较差。在由人工标注数据时,一般是由人工标注文本中每个词条的标签,在一种标签标注方法中,是对文本中每个词条所属的语义槽进行标注,其中,语义槽是指具有语义信息的文本片段,如音乐领域的语义槽列表包括歌曲名、歌手名、专辑名等语义槽。但通过人工对文本进行语义槽标注,比如由特定领域内的专家进行标注,人工成本较高,并且,在标注人员较多的情况下,标注的一致性也会存在问题。
技术实现思路
本申请实施例的主要目的在于提供一种文本标注方法及装置,不但能够降低标注成本,还能提高标注结果的一致性。本申请实施例提供了一种文本标注方法,包括:获取待标注的目标文本;确定所述目标文本所属的特定领域;利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。可选的,所述利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,作为各个检索值;将所述目标文本进行片段分割,得到各个文本片段;根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注。可选的,所述在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到出现在所述目标文本中的各个值;和/或,将所述目标文本按照预设表现形式进行转换,得到转换文本,在转换数据中检索各个字段下的各个值,得到出现在所述转换文本中的各个值,所述转换数据是将所述特定领域内的结构化数据按照所述预设表现形式进行转换的结果;按照所述结构化数据的原始表现形式,将检索到的各个值在所述结构化数据的各条数据下进行去重合并。可选的,所述各个文本片段中包括至少一种类型的文本片段,不同类型的文本片段具有不同的文本单元个数。可选的,所述根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注,包括:根据各个检索值与各个文本片段之间的匹配结果,生成所述目标文本中的每一文本单元在各个预设标签上的统计信息;根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注。可选的,所述文本片段对应于所述文本片段中的一个文本单元;所述生成所述目标文本中的每一文本单元在各个预设标签上的统计信息,包括:在生成所述文本单元对应的统计信息时,对于各个检索值,若所述检索值包含所述文本单元对应的文本片段,则确定出所述检索值在所述结构化数据中所属的字段,并确定出所述文本单元在所述检索值中的位置;将确定的字段和位置对应的预设标签上的统计值加1。可选的,所述根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注,包括:根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,以及各个预设标签之间的跳转概率,对所述目标文本中的各个词条进行语义槽标注。可选的,所述对所述目标文本中的各个词条进行语义槽标注,包括:采用维特比算法,对所述目标文本中的各个词条进行语义槽标注。可选的,所述对所述目标文本中的各个词条进行语义槽标注之前,包括:过滤掉所述目标文本中的冗余词汇,所述冗余词汇包括属于所述特定领域的常见句式中的词汇。本申请实施例还提供了一种文本标注装置,包括:目标文本获取单元,用于获取待标注的目标文本;特定领域确定单元,用于确定所述目标文本所属的特定领域;语义槽标注单元,用于利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。可选的,所述语义槽标注单元包括:检索值获取子单元,用于在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,作为各个检索值;文本片段获得子单元,用于将所述目标文本进行片段分割,得到各个文本片段;语义槽标注子单元,用于根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注。可选的,所述检索值获取子单元包括:目标值获得子单元,用于在所述特定领域内的结构化数据中检索各个字段下的各个值,得到出现在所述目标文本中的各个值;和/或,将所述目标文本按照预设表现形式进行转换,得到转换文本,在转换数据中检索各个字段下的各个值,得到出现在所述转换文本中的各个值,所述转换数据是将所述特定领域内的结构化数据按照所述预设表现形式进行转换的结果;目标值处理子单元,按照所述结构化数据的原始表现形式,将检索到的各个值在所述结构化数据的各条数据下进行去重合并。可选的,所述各个文本片段中包括至少一种类型的文本片段,不同类型的文本片段具有不同的文本单元个数。可选的,所述语义槽标注子单元包括:统计信息生成子单元,用于根据各个检索值与各个文本片段之间的匹配结果,生成所述目标文本中的每一文本单元在各个预设标签上的统计信息;第一语义槽标注子单元,用于根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注。可选的,所述文本片段对应于所述文本片段中的一个文本单元;所述统计信息生成子单元包括:位置确定子单元,用于在生成所述文本单元对应的统计信息时,对于各个检索值,若所述检索值包含所述文本单元对应的文本片段,则确定出所述检索值在所述结构化数据中所属的字段,并确定出所述文本单元在所述检索值中的位置;统计值确定子单元,用于将确定的字段和位置对应的预设标签上的统计值加1。可选的,所述第一语义槽标注子单元具体用于:根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,以及各个预设标签之间的跳转概率,对所述目标文本中的各个词条进行语义槽标注。可选的,所述语义槽标注单元具体用于:采用维特比算法,对所述目标文本中的各个词条进行语义槽标注。可选的,所述装置还包括:冗余词汇过滤单元,用于过滤掉所述目标文本中的冗余词汇,所述冗余词汇包括属于所述特定领域的常见句式中的词汇。本申请实施例还提供了一种文本标注设备,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述文本标注方法中的任意一种实现方式。本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述文本标注方法中的任意一种实现方式。本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述文本标注方法中的任意一种实现方式。本申请实施例提供的一种文本标注方法及装置,在获取到待标注的目标文本后,可以先本文档来自技高网...

【技术保护点】
1.一种文本标注方法,其特征在于,包括:获取待标注的目标文本;确定所述目标文本所属的特定领域;利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。

【技术特征摘要】
1.一种文本标注方法,其特征在于,包括:获取待标注的目标文本;确定所述目标文本所属的特定领域;利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注。2.根据权利要求1所述的方法,其特征在于,所述利用所述特定领域内的结构化数据,对所述目标文本中的各个词条进行语义槽标注,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,作为各个检索值;将所述目标文本进行片段分割,得到各个文本片段;根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注。3.根据权利要求2所述的方法,其特征在于,所述在所述特定领域内的结构化数据中检索各个字段下的各个值,得到与所述目标文本相匹配的各个值,包括:在所述特定领域内的结构化数据中检索各个字段下的各个值,得到出现在所述目标文本中的各个值;和/或,将所述目标文本按照预设表现形式进行转换,得到转换文本,在转换数据中检索各个字段下的各个值,得到出现在所述转换文本中的各个值,所述转换数据是将所述特定领域内的结构化数据按照所述预设表现形式进行转换的结果;按照所述结构化数据的原始表现形式,将检索到的各个值在所述结构化数据的各条数据下进行去重合并。4.根据权利要求2所述的方法,其特征在于,所述各个文本片段中包括至少一种类型的文本片段,不同类型的文本片段具有不同的文本单元个数。5.根据权利要求2所述的方法,其特征在于,所述根据各个检索值与各个文本片段之间的匹配结果,对所述目标文本中的各个词条进行语义槽标注,包括:根据各个检索值与各个文本片段之间的匹配结果,生成所述目标文本中的每一文本单元在各个预设标签上的统计信息;根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注。6.根据权利要求5所述的方法,其特征在于,所述文本片段对应于所述文本片段中的一个文本单元;所述生成所述目标文本中的每一文本单元在各个预设标签上的统计信息,包括:在生成所述文本单元对应的统计信息时,对于各个检索值,若所述检索值包含所述文本单元对应的文本片段,则确定出所述检索值在所述结构化数据中所属的字段,并确定出所述文本单元在所述检索值中的位置;将确定的字段和位置对应的预设标签上的统计值加1。7.根据权利要求5所述的方法,其特征在于,所述根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,对所述目标文本中的各个词条进行语义槽标注,包括:根据所述目标文本中的每一文本单元在各个预设标签上的统计信息,以及各个预设标签之间的跳转概率,对所述目标文本中的各个词条进行语义槽标注。8.根据权利要求1至7任一项所述的方法,其特征在于,所述对所述目标文本中的各个词条进行语义槽标注,包括:采用维特比算法,对所述目标文本中的各个词条进行语义槽标注。9.根据权利要求1至7任一项所述的方法,其特征在于,所述对所述目标文本中的各个词条进行语义槽标...

【专利技术属性】
技术研发人员:梅林海杨强陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1