当前位置: 首页 > 专利查询>北京大学专利>正文

文本标注方法、系统和计算机设备技术方案

技术编号:44060216 阅读:32 留言:0更新日期:2025-01-17 16:01
本申请涉及一种文本标注方法、系统和计算机设备。包括:通过获取的初始文本和标注任务,并确定对初始文本进行多尺寸切分后的文本片段、确定与标注任务相关联的提示词。通过大语言模型和提示词对文本片段进行标注,得到初始标注数据。最后通过目标模型对多条初始标注数据进行特征评分过滤,得到目标标注数据。采用本方法能够提高标注数据的准确性和一致性。

【技术实现步骤摘要】

本申请涉及人工智能,特别是涉及一种文本标注方法、系统和计算机设备


技术介绍

1、人工智能技术在文本标注中具有广泛的应用背景,通过结合自然语言处理、机器学习、半监督学习等技术手段,可以为实现高效准确的理解和应用提供强大支持。

2、现有的大语言模型处理大规模领域提问标注方法,虽然不需要领域专家打标和特征工程,但其无监督方法对大规模数据的依赖较大,训练成本高,且模型质量和标注准确度与训练数据量直接相关,容易造成标注准确性不高的问题。且现有技术缺乏对标注数据质量的动态反馈和优化机制,无法在实际应用中根据标注结果的质量进行实时调整和优化。


技术实现思路

1、基于此,本申请目的在于提供一种提高标注准确性和一致性的文本标注方法、系统和计算机设备,来解决上述
技术介绍
中提及的技术问题。

2、第一方面,本申请提供了一种文本标注方法。包括:

3、获取初始文本和标注任务;

4、确定对所述初始文本进行多尺寸切分后的文本片段;

5、确定与所述标注任务相关联的提示词,并通过大语本文档来自技高网...

【技术保护点】

1.一种文本标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定对所述初始文本进行多尺寸切分后的文本片段,包括:

3.根据权利要求1所述的方法,其特征在于,所述目标模型包括价值模型和打分模型;所述通过目标模型对多条初始标注数据进行特征评分过滤,得到目标标注数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述通过价值模型确定所述初始标注数据的价值,包括:

5.根据权利要求3所述的方法,其特征在于,所述打分模型预先通过高质量的标注数据集训练得到;所述标注数据集包括人工标注的数据和进行不同文本标注后得到...

【技术特征摘要】

1.一种文本标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述确定对所述初始文本进行多尺寸切分后的文本片段,包括:

3.根据权利要求1所述的方法,其特征在于,所述目标模型包括价值模型和打分模型;所述通过目标模型对多条初始标注数据进行特征评分过滤,得到目标标注数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述通过价值模型确定所述初始标注数据的价值,包括:

5.根据权利要求3所述的方法,其特征在于,所述打分模型预先通过高质量的标注数据集训练得到;所述标注数据集包括人工标注的数据和进行不同文本标注后得到的目标标注数据;

6.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:宋洁何冠楠龚起航肖亨波文浩然罗东艾书荟
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1