自由文档问答语料标注方法技术

技术编号:37491064 阅读:27 留言:0更新日期:2023-05-07 09:29
本发明专利技术公开了一种自由文档问答语料标注方法,包括以下步骤:S1、根据不同的标注需求,创建自由文档问答语料标注任务;S2、标注人员选择标注任务,对自由文档语料中的问题及问题类型、答案及答案类型进行标注,得到标注任务结果;S3、将当前标注任务结果导出为需要的标注语料文件。本发明专利技术使用机器预标注、人工修改确认的标注方式,标注人员只需要对模型没有自动标注的语料或者标注错误的结果进行标注或校验修改。修改后的结果将对领域语料不断进行扩充。随着标注数据量的增加,机器预标注的准确率不断提高。通过机器预标注,将可以减少80%~90%的标注工作量,能显著提高数据标注效率。效率。效率。

【技术实现步骤摘要】
自由文档问答语料标注方法


[0001]本专利技术属于自然语言处理
,具体涉及一种自由文档问答语料标注方法。

技术介绍

[0002]智能问答系统是一种能够接受用户以自然语言的问句进行提问,并从大量异构数据中自动查找出简洁答案的信息检索系统。智能问答系统在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。
[0003]按问答系统所使用的语料、知识库来划分,问答系统可以分为基于结构化数据库的问答系统、基于知识库的问答系统和基于自由文档的问答系统。
[0004]基于结构化数据库的问答系统通过分析问题,把问题转化为一个查询(query),然后在结构化数据中进行查询,再把返回的查询结果作为问题的答案。孟小峰等人设计实现了一种中文数据库自然语言查询系统Nchiql,为数据库提供了自然语言查询界面。
[0005]基于知识库的问答系统是指该问答系统使用了一个赖以支撑的知识库,作为辅助问答系统回答用户提问的重要部件。基于知识库的问答系统可以使用一个或多个知识库,利用检索和推理等技术,理解和解决用户查询问题。
[0006]自由文档(free

text),是原始的未经处理的非结构化文本,如文档、网页等。基于自由文档的问答系统,接受用户以自然语言提交的问句,然后利用信息检索等技术,从系统的自由文档集合或者互联网中,检索出相关的文档、网页,最后利用答案抽取等技术,从这些检索出来的自由文档中抽取出问题的答案并提交给用户。
[0007]基于结构化数据库的问答系统需要构建并维护结构化数据库,基于知识库的问答系统需要构建并维护各种知识库,需要花费大量的人力和时间成本。而基于自由文档的问答系统可以直接从非结构化的文本中进行答案抽取,减少了前期数据处理的时间和后期的数据库维护成本。
[0008]基于自由文档的问答系统是问答系统的主流。其问题答案来自于非结构化文档。特别是伴随互联网的发展,从互联网采集网页或文档并分析处理这些大规模文本数据,已经是信息检索、信息抽取和问答系统不可回避的课题。现有的大部分问答系统,特别是面向互联网的开放域问答系统,包括社区问答系统,都属于自由文档问答系统,是问答系统极为重要的发展方向。为了提升智能问答效果,需标注自由文档问答语料来训练问答模型。针对不同的问答应用场景具体的应用需求,需要标注出问题及问题类型,答案及答案类型,生成标注语料文本,供问答模型训练使用。

技术实现思路

[0009]针对现有技术中的上述不足,本专利技术提供的一种自由文档问答语料标注方法解决了自由文档问答语料标注准确率及效率不高,基于自由文档的问答系统问答结果不准确的问题。
[0010]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种自由文档问答语料标注方法,包括以下步骤:
[0011]S1、根据不同的标注需求,创建自由文档问答语料标注任务;
[0012]S2、标注人员选择标注任务,对自由文档语料中的问题及问题类型、答案及答案类型进行标注,得到标注任务结果;
[0013]S3、将当前标注任务结果导出为需要的标注语料文件。
[0014]进一步地:所述步骤S1具体为:
[0015]S11、根据具体标注需求从原始语料库中查询获取相应主题的语料,得到待标注语料;
[0016]S12、对需要标注的问题类型、答案类型及其标注颜色进行设置,创建自由文档问答语料标注规则;
[0017]S13、设置标注任务信息,选择标注规则,选择机器预标注算法服务,分配标注人员,创建自由文档问答标注任务。
[0018]进一步地:所述标注任务信息包括任务名称、任务类型、任务描述、任务状态。
[0019]进一步地:所述步骤S2中可使用人工标注和机器预标注两种方式进行标注,如当前标注任务已选择机器预标注算法服务,则先进行机器预标注然后由标注人员确认后保存标注结果;如当前标注任务未选择机器预标注算法服务,则直接进行人工标注。
[0020]进一步地:所述人工标注具体为:选择当前标注任务中一篇待标注文本语料;选择当前所提问题的问题类型,输入问题内容;在文本语料正文中滑词选择问题对应的答案,右键菜单选择答案的类型,得到问题

答案标注语料对,保存当前问题及答案;选择下一篇文档进行标注,直到完成当前任务中所有语料的标注,将结果存入标注语料库。
[0021]进一步地:所述机器预标注具体为:选择当前标注任务中一篇待标注文本语料;选择当前所提问题的问题类型,输入问题内容;调用机器预标注算法服务,使用阅读理解问答模型算法服务生成问题答案,标注人员对答案进行确认后,右键菜单选择答案的类型,得到问题

答案标注语料对,保存当前问题及答案;选择下一篇文档进行标注,直到完成当前任务中所有语料的标注,将结果存入标注语料库。
[0022]进一步地:所述步骤S3中也可以根据不同的模型训练任务,在标注语料库中查询历史标注任务产生的标注语料,生成相应主题的标注语料文件。
[0023]本专利技术的有益效果为:
[0024]在标注处理流程方面:本专利技术可针对不同的标注需求,选择不同的原始语料创建自由文档问答标注任务,生成自由文档问答标注语料进行后续问答模型的训练,以支撑不同的问答应用场景。本专利技术提供对所标注的问题类型和答案类型及其标注颜色的自定义配置,以支撑不同问答模型的训练使用及标注人员的标注操作。本专利技术将原始语料和标注语料进行区分管理,避免了对原始语料和标注语料的误删除等操作,保证了语料的安全性。
[0025]在标注方法方面:本专利技术使用机器预标注、人工修改确认的标注方式,标注人员只需要对模型没有自动标注的语料或者标注错误的结果进行标注或校验修改。修改后的结果将对领域语料不断进行扩充。随着标注数据量的增加,机器预标注的准确率不断提高。通过机器预标注,将可以减少80%~90%的标注工作量,能显著提高数据标注效率。
附图说明
[0026]图1为本专利技术流程图;
[0027]图2为阅读理解问答模型示意图。
具体实施方式
[0028]下面对本专利技术的具体实施方式进行描述,以便于本
的技术人员理解本专利技术,但应该清楚,本专利技术不限于具体实施方式的范围,对本
的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本专利技术的精神和范围内,这些变化是显而易见的,一切利用本专利技术构思的专利技术创造均在保护之列。
[0029]如图1所示,一种自由文档问答语料标注方法,包括以下步骤:
[0030]S1、根据不同的标注需求,创建自由文档问答语料标注任务,为后续自由文档问答标注提供语料支撑;具体方法为:
[0031]1.1待标注语料获取:根据具体标注需求从原始语料库中查询获取相应主题的语料,得到待标注语料;
[0032]原始语料库中存放未标注的原始语料,可对原始语料进行管理,包括语料导入、语料查询、语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自由文档问答语料标注方法,其特征在于,包括以下步骤:S1、根据不同的标注需求,创建自由文档问答语料标注任务;S2、标注人员选择标注任务,对自由文档语料中的问题及问题类型、答案及答案类型进行标注,得到标注任务结果;S3、将当前标注任务结果导出为需要的标注语料文件。2.根据权利要求1所述的自由文档问答语料标注方法,其特征在于,所述步骤S1具体为:S11、根据具体标注需求从原始语料库中查询获取相应主题的语料,得到待标注语料;S12、对需要标注的问题类型、答案类型及其标注颜色进行设置,创建自由文档问答语料标注规则;S13、设置标注任务信息,选择标注规则,选择机器预标注算法服务,分配标注人员,创建自由文档问答标注任务。3.根据权利要求2所述的自由文档问答语料标注方法,其特征在于,所述标注任务信息包括任务名称、任务类型、任务描述、任务状态。4.根据权利要求1所述的自由文档问答语料标注方法,其特征在于,所述步骤S2中可使用人工标注和机器预标注两种方式进行标注,如当前标注任务已选择机器预标注算法服务,则先进行机器预标注然后由标注人员确认后保存标注结果;如当前标注任务未选择机器预标注算法服务,则直接进行人工...

【专利技术属性】
技术研发人员:丁洪丽杨露代翔崔莹潘磊高翔陈伟晴
申请(专利权)人:中国电子科技集团公司第十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1