一种行政审批实体识别方法技术

技术编号:40316280 阅读:27 留言:0更新日期:2024-02-07 20:58
本发明专利技术适用于自然语言处理、实体识别领域,提供一种行政审批实体识别方法,首先获取行政审批文档这样为初始样本集,文本识别后建立行政审批语料库和行政审批实体语料库;然后基于所述行政审批语料库训练预训练模型,以及基于行政审批实体语料库,将预训练模型添加实体识别下游任务,得到行政审批实体识别模型;最后基于行政审批语料库进行预测,输出对应的实体识别结果及实体类型。本发明专利技术可以解决自动识别行政审批文档中实体及实体类型的问题,为机器辅助审批行政提供帮助。本发明专利技术方法对比现有实体识别方法在识别行政审批文档中实体的精度更高。

【技术实现步骤摘要】

本专利技术属于自然语言处理、实体识别,尤其涉及一种行政审批实体识别方法


技术介绍

1、为建立行政审批知识管理平台和算法研发平台,支撑审批辅助、百科问答等业务场景,需通过机器自动获取行政审批文档实体。自动获取实体常采用深度网络方法,深度神经网络能够自动从语料库中学习到丰富的语言知识,并在实体识别下游任务中进行微调,取得了优秀的效果,准确率达到80%以上。

2、通常实体识别直接使用wordpiece分词方法,将输入句子分割成多个子词,tokenembedding层将每个子词映射为对应的词向量,segment embedding嵌入层区分句子的不同部分,自注意力层捕捉输入句子中的上下文信息,前馈神经网络层对特征进行非线性变换,添加下游任务以提取命名实体。但这样会导致在专用领域模型权重不合适,精度与回归率下降,达不到预期标准。

3、而目前没有在行政审批行业的实体识别模型,主要因为行政审批行业无公开数据集,缺少结构化数据,大多为非结构化数据。目前只有人工审查的方式提取行政审批文档中的实体。


术实现思路<本文档来自技高网...

【技术保护点】

1.一种行政审批实体识别方法,其特征在于,所述方法包括下述步骤:

2.如权利要求1所述行政审批实体识别方法,其特征在于,所述步骤S1具体过程如下:

3.如权利要求2所述行政审批实体识别方法,其特征在于,所述步骤S2具体过程如下:

4.如权利要求3所述行政审批实体识别方法,其特征在于,步骤S21的具体过程为:通过分词器将输入的文本分割成多个子词,将子词通过标记器tokenizer与字典对应,映射到字典ID,实现将子词编码为词向量。

5.如权利要求4所述行政审批实体识别方法,其特征在于,步骤S22的具体过程为:

6.如权利要求5所述...

【技术特征摘要】

1.一种行政审批实体识别方法,其特征在于,所述方法包括下述步骤:

2.如权利要求1所述行政审批实体识别方法,其特征在于,所述步骤s1具体过程如下:

3.如权利要求2所述行政审批实体识别方法,其特征在于,所述步骤s2具体过程如下:

4.如权利要求3所述行政审批实体识别方法,其特征在于,步骤s21的具体过程为:通过分词器将输入的文本分割成多个...

【专利技术属性】
技术研发人员:杨志祥陈爽杨小涛熊筠轲程佳斌余将其彭坤江丹涂雅晴
申请(专利权)人:中船凌久高科武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1