一种基于拼音信息的命名实体抽取方法及装置制造方法及图纸

技术编号:42813006 阅读:35 留言:0更新日期:2024-09-24 20:54
本发明专利技术公开了一种基于拼音信息的命名实体抽取方法及装置,涉及数据处理技术领域,主要目的在于实现提高命名实体抽取的准确率。本发明专利技术主要的技术方案为:获取待处理文本;对所述待处理文本分别进行拼音信息嵌入处理和字符信息嵌入处理,得到所述待处理文本对应的拼音嵌入表示和字词嵌入表示;基于所述待处理文本对应的拼音嵌入表示和字词嵌入表示,利用预设Transformer处理得到所述待处理文本对应的目标拼音信息和目标字词信息;将所述待处理文本对应的目标拼音信息和目标字词信息进行拼接,并输入到条件随机场中进行解码,得到所述待处理文本中每个词的标签。本发明专利技术用于命名实体抽取。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种基于拼音信息的命名实体抽取方法及装置


技术介绍

1、命名实体识别(named entity recognition,ner)是自然语言处理中非常基础也是非常重要的一部分,同时也是知识图谱、关系抽取等任务的基础。

2、目前,对命名实体识别方式主要采用将字词信息或者拼音信息单独嵌入到模型中对实体进行抽取。

3、但是,采用将字词信息或者拼音信息单独嵌入到模型中对实体进行抽取的方式没有考虑到字词信息和拼音信息对实体的综合影响,导致命名实体识别的准确率较低。


技术实现思路

1、鉴于上述问题,本专利技术提供一种基于拼音信息的命名实体抽取方法及装置,主要目的是为了实现提高命名实体抽取的准确率。

2、为解决上述技术问题,本专利技术提出以下方案:

3、第一方面,本专利技术提供一种基于拼音信息的命名实体抽取方法,所述方法包括:

4、获取待处理文本;

5、对所述待处理文本分别进行拼音信息嵌入处理和字符信息嵌入处理,得到所述本文档来自技高网...

【技术保护点】

1.一种基于拼音信息的命名实体抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本分别进行拼音信息嵌入处理和字符信息嵌入处理,得到所述待处理文本对应的拼音嵌入表示和字词嵌入表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本分别进行拼音信息嵌入处理和字符信息嵌入处理,得到所述待处理文本对应的拼音嵌入表示和字词嵌入表示,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述待处理文本对应的拼音嵌入表示和字词嵌入表示,利用预设Transformer处理得到所述待处理文本对应的目...

【技术特征摘要】

1.一种基于拼音信息的命名实体抽取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本分别进行拼音信息嵌入处理和字符信息嵌入处理,得到所述待处理文本对应的拼音嵌入表示和字词嵌入表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本分别进行拼音信息嵌入处理和字符信息嵌入处理,得到所述待处理文本对应的拼音嵌入表示和字词嵌入表示,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述待处理文本对应的拼音嵌入表示和字词嵌入表示,利用预设transformer处理得到所述待处理文本对应的目标拼音信息和目标字词信息,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述待处理文本对应的拼音嵌入表示和字词嵌入表示,利用预设transformer处理得到所述待处理文本对应的目标拼音信息和目标字词信息,包括:

6.根据...

【专利技术属性】
技术研发人员:李国梁
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1