本发明专利技术实施例提供一种语言标注处理方法、系统、电子设备及计算机可读介质,属于人工智能技术领域。该语言标注处理方法包括:利用经过标注的语料构建标注语料库;基于所述标注语料库进行建模,得到业务场景分类模型和语义识别模型;获取未经标注的信息;利用所述业务场景分类模型和所述语义识别模型对所述未经标注的信息进行标注。本发明专利技术通过提供一种面向机器学习的自然语言处理智能标注的方法,使用标注过的语料构建语料库,并以此来进行机器学习,训练构建模型,对于未经标注的数据而言,基于该模型进行标注可以减少标注人员不必要的低级错误,提高标注的准确率。
Language annotation processing methods, systems, electronic devices and computer readable media
【技术实现步骤摘要】
语言标注处理方法、系统、电子设备及计算机可读介质
本专利技术实施例总体涉及人工智能
,具体而言,涉及一种语言标注处理方法、系统、电子设备及计算机可读介质。
技术介绍
随着人工智能的快速发展,人们需要训练计算机解决一些问题,但仍然有大量问题是计算机不能完成的,特别是在理解人类语言方面。在自然语言领域,对机器学习训练数据的提示,通常以标注的形式呈现,用于标记数据集元素的元数据标签称为在输入上的标注。为了使算法更有效,数据上的标注必须准确并与要执行的任务相关。NLP(NaturalLanguageProcessing,自然语言处理)是人工智能中最为困难的问题之一,语言标注又是人工智能在NLP领域落地的关键环节。现有技术方案往往采用人工标注,在NLP领域的序列标注问题,通常是需求方把要标注的语料以Excel的格式提供给标注人员,并且需求方写好标注指南,标注人员阅读标注指南后,根据自己的认知理解和标注语料,按要求逐条标注。但是现有技术存在一定的缺点,就是单纯的人工标注对标注人员的依赖很大,标注工作本身比较枯燥,但是需要标注人员每时每刻都高度集中注意力,稍不留意,就容易出现错别字、标注串行等一些很低级的手误,导致整条标注语句不能用,浪费人力和时间。因此,现有技术方案中还存在有待改进之处。在所述
技术介绍
部分公开的上述信息仅用于加强对本专利技术实施例的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本专利技术实施例提供一种语言标注处理方法、系统、电子设备及计算机可读介质,解决现有技术方案中单纯人工标注费时费力而且错误较多的问题。本专利技术实施例的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术实施例的实践而习得。根据本专利技术实施例的第一方面,提供一种语言标注处理方法,包括:利用经过标注的语料构建标注语料库;基于所述标注语料库进行建模,得到业务场景分类模型和语义识别模型;获取未经标注的信息;利用所述业务场景分类模型和所述语义识别模型对所述未经标注的信息进行标注。在本专利技术的一些实施例中,所述经过标注的语料和所述未经标注的信息为通过语音助手获取得到的一段话。在本专利技术的一些实施例中,所述利用经过标注的语料构建标注语料库为:获取经过标注的语料,其中所述经过标注的语料为用户通过所述语音助手输入的一段话中的第一句话;对所述经过标注的语料进行数据清洗,去除无用信息;对所述经过标注的语料划分为多个业务场景,并从所述多个业务场景选取相同数目的语料,组成所述标注语料库。在本专利技术的一些实施例中,所述业务场景分类模型分类后的标签包括:特定商品查询、订单查询、售后、特定优惠查询、模糊优惠查询和全站直达。在本专利技术的一些实施例中,所述语义识别模型的标签包括:产品词、品牌词和修饰词。在本专利技术的一些实施例中,所述基于所述标注语料库进行建模包括:根据标注需求确定特征;根据所述特征确定所述业务场景分类模型和所述语义识别模型的标签;根据所述标注语料库采用预设算法构建多层深度学习的神经网络进行建模。在本专利技术的一些实施例中利用所述业务场景分类模型和所述语义识别模型对所述未经标注的信息进行标注之后,还包括:对所述语义识别模型的标注结果进行统计,得到评估指标;根据所述评估指标对所述语义分析模型进行评估,得到评估结果;根据所述评估结果对所述语义分析模型采用的所述预设算法进行调整,重新进行建模。根据本专利技术实施例的第二方面,提供一种语言标注处理系统,包括:语料库单元,配置为利用经过标注的语料构建标注语料库;建模单元,配置为基于所述标注语料库进行建模,得到业务场景分类模型和语义识别模型;信息获取单元,配置为获取未经标注的信息;标注单元,配置为利用所述业务场景分类模型和所述语义识别模型对所述未经标注的信息进行标注。根据本专利技术实施例的第三方面,提供一种电子设备,包括:存储器;处理器及存储在该存储器上并可在该处理器上运行的计算机程序,该程序被该处理器执行时实现上述的方法的指令。根据本公开实施例的第四方面,提供一种计算机可读介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现上述的方法步骤。根据本专利技术实施例提供的语言标注处理方法、系统、电子设备及计算机可读介质,通过提供一种面向机器学习的自然语言处理智能标注的方法,使用标注过的语料构建语料库,并以此来进行机器学习,训练构建模型,对于未经标注的数据而言,基于该模型进行标注可以减少标注人员不必要的低级错误,提高标注的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本专利技术实施例。附图说明通过参照附图详细描述其示例实施例,本专利技术实施例的上述和其它目标、特征及优点将变得更加显而易见。图1示出本专利技术实施例提供的一种语言标注处理方法的流程图。图2示出本专利技术实施例图1中步骤S11的流程图。图3示出本专利技术实施例图1中步骤S12的流程图。图4示出本专利技术实施例中进行有监督学习标注的整体循环流程示意图。图5示出本专利技术一实施例中实现进行标注处理的架构示意图。图6示出本专利技术一实施例中大数据Hive表的全部字段的示意图。图7示出本专利技术一实施例中部分用户输入和需要的标注的示意图。图8示出本专利技术一实施例中获得平台购物原始数据的分布示意图。图9示出本专利技术一实施例中标注工具的界面示意图。图10示出本专利技术一实施例中标注工具文件输出内容的示意图。图11示出本专利技术一实施例中将标注结果用XML格式进行输出的示意图。图12示出本专利技术一实施例中语义识别模型的验证集四个评估指标的示意图。图13示出本专利技术一实施例中语义识别模型的测试集四个评估指标的示意图。图14示出本专利技术另一实施例提供的一种语言标注处理系统的示意图。图15示出本专利技术再一实施例提供的适于用来实现本申请实施例的电子设备的系统结构示意图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本专利技术实施例将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本专利技术实施例的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本专利技术实施例的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术实施例的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本专利技术实施例的各方面变得模糊。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。为使本专利技术实施例的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。图1示出本专利技术实施例提供的一种语言标注处理方法的流程图。如图1所示,在步骤S11中,利用经过标注的语料构本文档来自技高网...
【技术保护点】
1.一种语言标注处理方法,其特征在于,包括:利用经过标注的语料构建标注语料库;基于所述标注语料库进行建模,得到业务场景分类模型和语义识别模型;获取未经标注的信息;利用所述业务场景分类模型和所述语义识别模型对所述未经标注的信息进行标注。
【技术特征摘要】
1.一种语言标注处理方法,其特征在于,包括:利用经过标注的语料构建标注语料库;基于所述标注语料库进行建模,得到业务场景分类模型和语义识别模型;获取未经标注的信息;利用所述业务场景分类模型和所述语义识别模型对所述未经标注的信息进行标注。2.根据权利要求1所述的语言标注处理方法,其特征在于,所述经过标注的语料和所述未经标注的信息均为通过语音助手获取得到的一段话。3.根据权利要求2所述的语言标注处理方法,其特征在于,所述利用经过标注的语料构建标注语料库为:获取经过标注的语料,其中所述经过标注的语料为用户通过所述语音助手输入的一段话中的第一句话;对所述经过标注的语料进行数据清洗,去除无用信息;对所述经过标注的语料划分为多个业务场景,并从所述多个业务场景选取相同数目的语料,组成所述标注语料库。4.根据权利要求1所述的语言标注处理方法,其特征在于,所述业务场景分类模型分类后的标签包括:特定商品查询、订单查询、售后、特定优惠查询、模糊优惠查询和全站直达。5.根据权利要求1所述的语言标注处理方法,其特征在于,所述语义识别模型的标签包括:产品词、品牌词和修饰词。6.根据权利要求1所述的语言标注处理方法,其特征在于,所述基于所述标注语料库进行建模包括:根据标注需求确定...
【专利技术属性】
技术研发人员:王颖帅,李晓霞,苗诗雨,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。