A method and system for generating corpus in batches includes the following steps: S1: setting up the scene of corpus application; S2: setting up an intention database for the scene, which contains at least one intention corresponding to the scene; S3: setting up a situation database and a sentence database, which contains at least one situation, and a sentence database which contains at least one sentence pattern for each situation. At least one corresponding sentence pattern; S4: Choose at least one corresponding situation for each intention; S5: Set up multiple phrases needed to generate a complete sentence pattern for each sentence pattern according to the scene, intention and situation to which the sentence pattern belongs; S6: Apply multiple phrases to the corresponding sentence pattern to obtain a primary corpus; S7: Import the primary corpus into the primary corpus. Select the high quality corpus by line selection. The corpus generated by the invention is rich, complete and has good scene reuse, can save a lot of manpower and time, and has strong practicability.
【技术实现步骤摘要】
一种批量生成语料的方法和系统
本专利技术涉及自然语言生成领域,具体而言,涉及一种批量生成语料的方法和系统。
技术介绍
近年来,随着信息时代以及网络时代的发展,电商平台的用户数量和渗透率均在快速增长,在电商平台中,于企业端一般设置有人工客服,以应对用户的问题咨询、售后跟踪等需求。由于电商平台用户数量的迅速增长,所要应对的用户需求也随之迅速增长,与此同时,传统的采用人工客服进行服务的成本不断上升,导致人工客服已难以应对巨大的服务需求。因此,为了满足用户日益增长的服务需求以及为了提升用户体验,通过智能客服来应对用户问题咨询、售后跟踪等需要,成为当下不少电商平台的主动选择,智能客服以其强大的客户应对能力、24小时不间断服务能力、快速回复能力等显著优点助力电商平台在服务效率和及时性上实现质的飞越。于智能客服中,广泛应用到自然语言处理(NLP,naturallanguageprocessing)技术,自然语言处理主要研究的是人与计算机之间用自然语言进行有效通信的理论和方法。客服知识库是智能客服的核心数据,其包括问题数据和答案数据,用户的提问匹配至问题数据中的问题,之后再从答案数据中搜索出正确的答案返回给用户。客服知识库是通过构建语料库以及对语料库进行标注而实现,其中,构建语料库的过程即获取大量原始的自然语料,对语料库进行标注即是对获取到的原始自然语料中有价值的语料进行意图标注,为每一有价值的原始自然语料设置一意图标签。客服知识库的质量直接决定了智能客服向用户返回的答案的准确程度以及匹配程度,从而决定服务质量和用户体验,因此构建客服知识库是智能客服中相当重要的一环。现有 ...
【技术保护点】
1.一种批量生成语料的方法,其特征在于,包括以下步骤:S1:设置语料应用的场景;S2:为所述场景设置一意图库,所述意图库中包含与该场景对应的至少一个意图;S3:设置一情境库和一句式库,所述情境库中包含至少一个情境,所述句式库包含至少一个句式,为每一情境分别设置至少一个与之对应的句式;S4:为每一意图选择至少一个与之对应的情境;S5:根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;S6:将多个词组应用至与之对应的句式中,得到一初选语料库;S7:对所述初选语料库进行筛选,选出其中高质量的语料。
【技术特征摘要】
1.一种批量生成语料的方法,其特征在于,包括以下步骤:S1:设置语料应用的场景;S2:为所述场景设置一意图库,所述意图库中包含与该场景对应的至少一个意图;S3:设置一情境库和一句式库,所述情境库中包含至少一个情境,所述句式库包含至少一个句式,为每一情境分别设置至少一个与之对应的句式;S4:为每一意图选择至少一个与之对应的情境;S5:根据句式所属的场景、意图和情境,分别为每一情境下的每一句式设置生成完整句式所需的多个词组;S6:将多个词组应用至与之对应的句式中,得到一初选语料库;S7:对所述初选语料库进行筛选,选出其中高质量的语料。2.根据权利要求1所述的批量生成语料的方法,其特征在于,于步骤S1中,所述场景对应于一行业下的一项目。3.根据权利要求2所述的批量生成语料的方法,其特征在于,行业包括奶粉和纸尿裤,项目为奶粉行业和纸尿裤行业中的各现有品牌。4.根据权利要求1所述的批量生成语料的方法,其特征在于,所述情境库和所述句式库均是基于对人类语言的语境统计结果而设置,其中,所述情境库中的每一情境均是对多个语境下语言目的的上位性概括,所述句式库中的每一句式均是对特定语境下语言表述方式的具体呈现。5.根据权利要求1所述的批量生成语料的方法,其特征在于,于步骤S3之前进一步包括一词组管理步骤,步骤如下:将同一语义的词纳入同一个词组;为每个词分别标识其所属项、词类、类型和词性,其中,所属项用于标识与词对应的可用项,词类用于标识词的可用范围,类型用于标识词的种类,词性用于标识词的语法属性。6.根据权利要求5所述的批量生成语料的方法,其特征在于,所属项包括“项目品牌”、...
【专利技术属性】
技术研发人员:胡云华,郑俊成,莫瑜,孔委,高鹏,
申请(专利权)人:北京智能一点科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。