一种百科语料提取方法、装置、电子设备、芯片及介质制造方法及图纸

技术编号:46491606 阅读:4 留言:0更新日期:2025-09-26 19:10
本公开提供一种百科语料提取方法、装置、电子设备、芯片及介质,涉及知识抽取与表示技术领域。该百科语料提取方法包括:通过目标网页源码确定目标标签;获取目标标签对应的字符信息的语料类型,语料类型包括非结构化数据、结构化数据;若语料类型为非结构化数据,筛选字符信息中文本内容作为非结构化数据的文本;若语料类型为结构化数据,抽取字符信息和字符信息关联的百科信息,构建键值对作为结构化数据的内容。通过本公开提供的技术方案,解决了相关技术中获取的百科语料不准确、质量低的问题,提升了百科语料获取的准确度和质量。

【技术实现步骤摘要】

本公开涉及知识抽取与表示,尤其涉及一种百科语料提取方法、装置、电子设备、芯片及介质


技术介绍

1、随着大语言模型(large language model,llm)的快速发展,对高质量百科语料库的需求日益增长。大型语言模型如生成型预训练变换器3(generative pre-trainedtransformer 3,gpt-3)、基于变换器的双向编码器表示(bidirectional encoderrepresentations from transformers,bert)等,在文本生成、自然语言理解、机器翻译等多个领域展现出了卓越的性能。然而,为了训练这些模型,需要大量准确、多样化且高质量的数据。百科语料库作为知识密集型资源,成为了训练数据的重要来源之一。

2、百科语料库,例如维基百科,是一个协作编辑的平台,它汇聚了来自世界各地用户的知识和信息。这些语料库通常包含了丰富的主题,涵盖了广泛的一般知识和专业知识。由于其开放编辑的性质,百科语料库的内容动态更新,能够较快反映最新的知识状态。

3、然而,直接在相关百科语料库中提取百科语本文档来自技高网...

【技术保护点】

1.一种百科语料提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在抽取所述字符信息和所述字符信息关联的百科信息,构建键值对作为结构化数据的内容之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述若所述语料类型为所述非结构化数据,筛选所述字符信息中文本内容作为所述非结构化数据的文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定所述目录分级结构的各目录中所述文本内容的密度,包括:

5.根据权利要求4所述的方法,其特征在于,所述使用所述权重因子和所述文本内容中所述数据类型的文本的比例,得到所...

【技术特征摘要】

1.一种百科语料提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在抽取所述字符信息和所述字符信息关联的百科信息,构建键值对作为结构化数据的内容之后,还包括:

3.根据权利要求1所述的方法,其特征在于,所述若所述语料类型为所述非结构化数据,筛选所述字符信息中文本内容作为所述非结构化数据的文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述确定所述目录分级结构的各目录中所述文本内容的密度,包括:

5.根据权利要求4所述的方法,其特征在于,所述使用所述权重因子和所述文本内容中所述数据类型的文本的比例,得到所述密度,包括:

6.根据权利要求1所述的方法,其特征在于,所述通过目标网页源码确定目标标签,包括:

【专利技术属性】
技术研发人员:王一凡陈伟江会星
申请(专利权)人:北京罗克维尔斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1