基于BiLSTM-CRF的社会治理领域事件要素命名实体识别的方法技术

技术编号:35293983 阅读:16 留言:0更新日期:2022-10-22 12:40
本发明专利技术涉及一种基于BiLSTM

【技术实现步骤摘要】
基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法


[0001]本专利技术涉及社会治理
,具体涉及一种基于 BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法。

技术介绍

[0002]近年来,随着互联网+政务服务的推进,平安、信访件、12345、非警务警情、96345、人民调解等政务数据已成为地方政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。基于自然语言处理技术建立起的智慧政务系统已成为社会治理创新发展的迫切需求与新趋势。命名实体作为NLP的一项重要基础任务,广泛地应用于自动问答、智能检索、热点主题发现等领域,随着开源社区理念的倡导,出现许多开源的实体识别工具和实体识别训练语料,但是依然存在很多缺陷,主要体现在以下几个方面:
[0003]一、通用领域实体识别工具pyunit

ner仅能识别人民、地址和组织机构三类实体,而且模型训练代码未公开,无法进行新语料添加和重训练;
[0004]二、公开的细粒度命名实体识别语料CLUENER涉及的领域为体育、金融、游戏等领域,将其迁移到社会治理云领域难以达到理想的效果;
[0005]三、政务文本领域的中文机构名中罕见词多、结构复杂,不同领域机构的命名规则差异大,且地址表达式呈现随意性、多样性和歧义性,导致编码规则容易出现错误。
[0006]由此可见,现有的实体识别方案对于社会治理领域丰富且差异化的底层特征难以进行准确的标记和实体识别,且识别行为容易受限,影响使用效果。

技术实现思路

[0007]本专利技术的目的是针对上述问题,提供一种设计合理、使用效果好的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法。
[0008]为达到上述目的,本专利技术采用了下列技术方案:基于 BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,本方法包括以下步骤:
[0009]S1、对民众投诉和咨询类数据进行收集并制作与标注实体相关的词典;
[0010]S2、将标注词典作为多关键词匹配算法WuManber的查询项,对数据进行语料自动标注;
[0011]S3、将文本数据中的字、词、词性和知识KG特征转化为词嵌入形式的向量,拼接组合成BiLSTM模型的输入变量;
[0012]S4、利用BiLSTM模型提取词语的内在特征后输入到CRF层, CRF层则计算待标注序列中所有位置的标注得分以及相邻位置标注之间的转移得分,并输出文字形式的序列标注结果。
[0013]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,在步骤S1中,民众的投诉和咨询类数据通过政务服务网抓取。
[0014]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,在步骤S2中,语料自动标注的内容包括地理位置及中文人名,其中,职能部门名称从政务公开网站获取,地理位置包括细分为行政区域地名、街巷名、小区、门址以及标志物。
[0015]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,步骤S3具体包括以下步骤:
[0016]S21、运行实体识别工具github上的Chinese

Names

Corpus,从标注词典中解析出组织机构名,并借分词和词性标注成企业或个体户名称中的feature和function词典;
[0017]S22、按照标签类别进行分类并建立映射关系,作为标注的词汇知识库KG;
[0018]S23、对于待标注的每条数据,通过算法WuManber搜索所有匹配到的关键词及其在文本中的位置信息,并在相应的位置打上对应的Tag标签,其余位置则标O标签。
[0019]5.根据权利要求4基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,字、词、词性以及知识KG四类特征在向量化的过程中序列长度保持一致,且采集jieba分词工具进行分词,在四类特征向量化的过程中,词和词性特征能够进行合并处理。
[0020]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,在步骤S4中,对输出的序列标注结果采用下列方式的实体抽取:
[0021]S41、合并序列结果中所有以B、M、E开头且具有相同后缀的实体标签,生成新的词序列并抽取部分目标实体;
[0022]S42、根据地址编码规则和组织机构模式库,采用多关键词匹配算法WuManber进一步对中文地址和组织机构实体提取。
[0023]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,步骤S41具体包括以下步骤:
[0024]S411、利用预训练互随机初始化的embedding矩阵将句子中的每个字由one

hot向量映射为低维稠密的charembedding序列(c1,c2,c3,c4,c5),词和词性特征经词嵌入技术转化为wordandpostagembedding序列(t1,t2,t3,t4,t5),知识库KG特征则转化为kgembedding序列(k1,k2,k3,k4,k5);
[0025]S412、将上述序列对象在embedding维度上进行拼接并生成组合特征(x1,x2,x3,x4,x5),该组合特征在输入下一层之前,设置dropout以缓解过拟合。
[0026]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,步骤S42具体包括以下步骤:
[0027]S421、采用双向LSTM层自动提取句子特征,将一个句子的组合特征序列作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列与反向LSTM的在各个位置输出的隐状态进行按位置拼接得到完整的隐状态序列(h1,h2,h3,h4,h5);
[0028]S422、设置dropout后再接入一个线性层,将隐状态向量映射到K维,K是标注集的标签数,从而得到自动提取的句子特征,记作(p1,p2,p3,p4,p5)。
[0029]在上述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法中,CRF层进行句子的序列标注,CRF层的参数是一个(K+2)
×
(K+2)的矩阵A,其中,A
ij
表示的是从第
i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,经过CRF层运算后输出标签列表 (B

REGIOB,M

REGIOB,E

REGIOB,O,O)。
[0030]在上述的基于BiLST本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,本方法包括以下步骤:S1、运行实体识别工具pyunit

ner对民众投诉和咨询类数据进行收集并制作与标注实体相关的词典;S2、将标注词典作为多关键词匹配算法WuManber的查询项,对数据进行语料自动标注;S3、将文本数据中的字、词、词性和知识KG特征转化为词嵌入形式的向量,拼接组合成BiLSTM模型的输入变量;S4、利用BiLSTM模型提取词语的内在特征后输入到CRF层,CRF层则计算待标注序列中所有位置的标注得分以及相邻位置标注之间的转移得分,并输出文字形式的序列标注结果。2.根据权利要求1所述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,其特征在于,在步骤S1中,民众的投诉和咨询类数据通过政务服务网抓取。3.根据权利要求2所述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,其特征在于,在步骤S2中,所述的语料自动标注的内容包括地理位置及中文人名,其中,职能部门名称从政务公开网站获取,地理位置包括细分为行政区域地名、街巷名、小区、门址以及标志物。4.根据权利要求2所述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,其特征在于,步骤S3具体包括以下步骤:S21、运行实体识别工具github上的Chinese

Names

Corpus,从标注词典中解析出组织机构名,并借分词和词性标注成企业或个体户名称中的feature和function词典;S22、按照标签类别进行分类并建立映射关系,作为标注的词汇知识库KG;S23、对于待标注的每条数据,通过算法WuManber搜索所有匹配到的关键词及其在文本中的位置信息,并在相应的位置打上对应的Tag标签,其余位置则标O标签。5.根据权利要求4所述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,其特征在于,所述的字、词、词性以及知识KG四类特征在向量化的过程中序列长度保持一致,且采集jieba分词工具进行分词,在四类特征向量化的过程中,词和词性特征能够进行合并处理。6.根据权利要求1所述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,其特征在于,在步骤S4中,对输出的序列标注结果采用下列方式的实体抽取:S41、合并序列结果中所有以B、M、E开头且具有相同后缀的实体标签,生成新的词序列并抽取部分目标实体;S42、根据地址编码规则和组织机构模式库,采用多关键词匹配算法WuManber进一步对中文地址和组织机构实体提取。7.根据权利要求6所述的基于BiLSTM

CRF的社会治理领域事件要素命名实体识别的方法,...

【专利技术属性】
技术研发人员:吴马军宋超伟吴亦奇谢秋妹朱赟
申请(专利权)人:浙江嘉兴数字城市实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1