一种批量生成语料的方法和系统技术方案

技术编号:20448800 阅读:19 留言:0更新日期:2019-02-27 02:55
一种批量生成语料的方法和系统,该方法包括以下步骤:S1:设置语料应用的场景;S2:为场景设置一意图库,意图库中包含与该场景对应的至少一个意图;S3:设置一情境库和一句式库,情境库中包含至少一个情境,句式库包含至少一个句式,为每一情境分别设置至少一个与之对应的句式;S4:为每一意图选择至少一个与之对应的情境;S5:根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;S6:将多个词组应用至与之对应的句式中,得到一初选语料库;S7:对初选语料库进行筛选,选出其中高质量的语料。本发明专利技术生成的语料数据丰富、完整并且场景复用性好,能够节省大量的人力和时间,具有很强的实用性。

A Method and System for Mass Corpus Generation

A method and system for generating corpus in batches includes the following steps: S1: setting up the scene of corpus application; S2: setting up an intention database for the scene, which contains at least one intention corresponding to the scene; S3: setting up a situation database and a sentence database, which contains at least one situation, and a sentence database which contains at least one sentence pattern for each situation. At least one corresponding sentence pattern; S4: Choose at least one corresponding situation for each intention; S5: Set up multiple phrases needed to generate a complete sentence pattern for each sentence pattern according to the scene, intention and situation to which the sentence pattern belongs; S6: Apply multiple phrases to the corresponding sentence pattern to obtain a primary corpus; S7: Import the primary corpus into the primary corpus. Select the high quality corpus by line selection. The corpus generated by the invention is rich, complete and has good scene reuse, can save a lot of manpower and time, and has strong practicability.

【技术实现步骤摘要】
一种批量生成语料的方法和系统
本专利技术涉及自然语言生成领域,具体而言,涉及一种批量生成语料的方法和系统。
技术介绍
近年来,随着信息时代以及网络时代的发展,电商平台的用户数量和渗透率均在快速增长,在电商平台中,于企业端一般设置有人工客服,以应对用户的问题咨询、售后跟踪等需求。由于电商平台用户数量的迅速增长,所要应对的用户需求也随之迅速增长,与此同时,传统的采用人工客服进行服务的成本不断上升,导致人工客服已难以应对巨大的服务需求。因此,为了满足用户日益增长的服务需求以及为了提升用户体验,通过智能客服来应对用户问题咨询、售后跟踪等需要,成为当下不少电商平台的主动选择,智能客服以其强大的客户应对能力、24小时不间断服务能力、快速回复能力等显著优点助力电商平台在服务效率和及时性上实现质的飞越。于智能客服中,广泛应用到自然语言处理(NLP,naturallanguageprocessing)技术,自然语言处理主要研究的是人与计算机之间用自然语言进行有效通信的理论和方法。客服知识库是智能客服的核心数据,其包括问题数据和答案数据,用户的提问匹配至问题数据中的问题,之后再从答案数据中搜索出正确的答案返回给用户。客服知识库是通过构建语料库以及对语料库进行标注而实现,其中,构建语料库的过程即获取大量原始的自然语料,对语料库进行标注即是对获取到的原始自然语料中有价值的语料进行意图标注,为每一有价值的原始自然语料设置一意图标签。客服知识库的质量直接决定了智能客服向用户返回的答案的准确程度以及匹配程度,从而决定服务质量和用户体验,因此构建客服知识库是智能客服中相当重要的一环。现有技术中,语料库的构建一般是采用人工方式将各种数据来源渠道统计来的数据进行汇总、集合,语料库的标注一般是采用人工方式对原始自然语料中有价值的语料一一进行意图识别后标注,其中,数据来源渠道例如为文献、报道、搜索引擎、社交平台、电商型平台等,这种方式存在以下缺点:(1)数据搜集、统计和标注阶段均需耗费相当大的人力和时间,效率低下;(2)从上述数据来源渠道统计得来的语料数据不丰富、不完整,无法覆盖所有可能的语料;(3)对不同的应用场景,需要分别进行数据搜集、统计和标注阶段,场景复用性差。因此,有必要针对上述现有语料库构建过程中的各种不足,研究一种高效、场景复用性好、语料数据丰富的语料生成方式。
技术实现思路
本专利技术提供一种批量生成语料的方法和系统,用以克服上述现有技术中的至少一个问题。为达到上述目的,本专利技术提供了一种批量生成语料的方法,其包括以下步骤:S1:设置语料应用的场景;S2:为所述场景设置一意图库,所述意图库中包含与该场景对应的至少一个意图;S3:设置一情境库和一句式库,所述情境库中包含至少一个情境,所述句式库包含至少一个句式,为每一情境分别设置至少一个与之对应的句式;S4:为每一意图选择至少一个与之对应的情境;S5:根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;S6:将多个词组应用至与之对应的句式中,得到一初选语料库;S7:对所述初选语料库进行筛选,选出其中高质量的语料。在本专利技术的一实施例中,于步骤S1中,所述场景对应于一行业下的一项目。在本专利技术的一实施例中,行业包括奶粉和纸尿裤,项目为奶粉行业和纸尿裤行业中的各现有品牌。在本专利技术的一实施例中,所述情境库和所述句式库均是基于对人类语言的语境统计结果而设置,其中,所述情境库中的每一情境均是对多个语境下语言目的的上位性概括,所述句式库中的每一句式均是对特定语境下语言表述方式的具体呈现。在本专利技术的一实施例中,于步骤S3之前进一步包括一词组管理步骤,步骤如下:将同一语义的词纳入同一个词组;为每个词分别标识其所属项、词类、类型和词性,其中,所属项用于标识与词对应的可用项,词类用于标识词的可用范围,类型用于标识词的种类,词性用于标识词的语法属性。在本专利技术的一实施例中,所属项包括“项目品牌”、“品牌”、“活动类型”、“优惠条件”、“优惠券详情”和“是否”等,词类包括“所属品牌”、“全分类”和“电商”等,类型包括“实体词”、“句式词”、“短句词”和“其他词”,词性包括人称名词、普通名词、时间名词、地点名词、动词、形容词、数词、量词、数量短语、语气词、叹词、程度副词、结构助词。在本专利技术的一实施例中,于步骤S3中,于每个句式中,首先将类型为句式词的词位置固定,再将其他位置用占位词进行占位。在本专利技术的一实施例中,于步骤S6中,将多个词组应用至与之对应的句式中的步骤为:从每一词组中分别选择其中的一个词替换句式中相应位置处的占位词和句式词,直至完成多个词组中每个词的所有排列组合。在本专利技术的一实施例中,所述占位词分为必选占位词和可选占位词。在本专利技术的一实施例中,所述短句词由实体词和其他类型的词组成。本专利技术还提供了一种批量生成语料的系统,其包括:场景生成单元,用于生成语料应用的场景;意图库,所述意图库中包含与该场景对应的至少一个意图;句式库,所述句式库包含至少一个句式;情境库,所述情境库中包含至少一个情境,每一情境分别具有至少一个与之对应的句式;情境设置单元,用于为每一意图设置至少一个与之对应的情境;句式生成单元,根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;初选语料生成单元,将多个词组应用至与之对应的句式中,以生成初选语料;语料筛选单元,对初选语料进行筛选,以选出其中高质量的语料。本专利技术提供的批量生成语料的方法和系统能够高效率的生成语料,生成的语料数据丰富、完整并且场景复用性好,与现有的语料库构建方式相比,能够节省大量的人力和时间,具有很强的实用性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的可视化交互界面示意图(一);图2为本专利技术的可视化交互界面示意图(二);图3为本专利技术的可视化交互界面示意图(三);图4为本专利技术提供的批量生成语料的系统的示意图。附图标记说明:1-场景生成单元;2-意图库;3-句式库;4-情境库;5-情境设置单元;6-句式生成单元;7-初选语料生成单元;8-语料筛选单元。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术提供了一种批量生成语料的方法,其包括以下步骤:S1:设置语料应用的场景;本专利技术适用于多种场景,能够满足各种场景中批量生成语料的需求。首先设置语料应用的“场景”,目的是为了便于后续的各个过程均围绕该具体“场景”而进行,生成的语料中的每个词、每个短语、每句话均与该场景相关,而与该场景无关的语料内容则完全不出现或出现几率极低。另外,现实中需要批量生成语料的应用均与具体的场景相对应,考虑到本专利技术的普遍适用性,故应首先设置语料应用的场景。为了便于说明,本专利技术本文档来自技高网
...

【技术保护点】
1.一种批量生成语料的方法,其特征在于,包括以下步骤:S1:设置语料应用的场景;S2:为所述场景设置一意图库,所述意图库中包含与该场景对应的至少一个意图;S3:设置一情境库和一句式库,所述情境库中包含至少一个情境,所述句式库包含至少一个句式,为每一情境分别设置至少一个与之对应的句式;S4:为每一意图选择至少一个与之对应的情境;S5:根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;S6:将多个词组应用至与之对应的句式中,得到一初选语料库;S7:对所述初选语料库进行筛选,选出其中高质量的语料。

【技术特征摘要】
1.一种批量生成语料的方法,其特征在于,包括以下步骤:S1:设置语料应用的场景;S2:为所述场景设置一意图库,所述意图库中包含与该场景对应的至少一个意图;S3:设置一情境库和一句式库,所述情境库中包含至少一个情境,所述句式库包含至少一个句式,为每一情境分别设置至少一个与之对应的句式;S4:为每一意图选择至少一个与之对应的情境;S5:根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;S6:将多个词组应用至与之对应的句式中,得到一初选语料库;S7:对所述初选语料库进行筛选,选出其中高质量的语料。2.根据权利要求1所述的批量生成语料的方法,其特征在于,于步骤S1中,所述场景对应于一行业下的一项目。3.根据权利要求2所述的批量生成语料的方法,其特征在于,行业包括奶粉和纸尿裤,项目为奶粉行业和纸尿裤行业中的各现有品牌。4.根据权利要求1所述的批量生成语料的方法,其特征在于,所述情境库和所述句式库均是基于对人类语言的语境统计结果而设置,其中,所述情境库中的每一情境均是对多个语境下语言目的的上位性概括,所述句式库中的每一句式均是对特定语境下语言表述方式的具体呈现。5.根据权利要求1所述的批量生成语料的方法,其特征在于,于步骤S3之前进一步包括一词组管理步骤,步骤如下:将同一语义的词纳入同一个词组;为每个词分别标识其所属项、词类、类型和词性,其中,所属项用于标识与词对应的可用项,词类用于标识词的可用范围,类型用于标识词的种类,词性用于标识词的语法属性。6.根据权利要求5所述的批量生成语料的方法,其特征在于,所属项包括“项目品牌”、...

【专利技术属性】
技术研发人员:胡云华郑俊成莫瑜孔委高鹏
申请(专利权)人:北京智能一点科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1