基于BiLSTM-CRF的社会治理领域事件要素命名实体识别的方法技术

技术编号：35293983 阅读：16 留言：0更新日期：2022-10-22 12:40

本发明专利技术涉及一种基于BiLSTM

全部详细技术资料下载

【技术实现步骤摘要】
基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法

[0001]本专利技术涉及社会治理
，具体涉及一种基于 BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法。

技术介绍

[0002]近年来，随着互联网+政务服务的推进，平安、信访件、12345、非警务警情、96345、人民调解等政务数据已成为地方政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。基于自然语言处理技术建立起的智慧政务系统已成为社会治理创新发展的迫切需求与新趋势。命名实体作为NLP的一项重要基础任务，广泛地应用于自动问答、智能检索、热点主题发现等领域，随着开源社区理念的倡导，出现许多开源的实体识别工具和实体识别训练语料，但是依然存在很多缺陷，主要体现在以下几个方面：
[0003]一、通用领域实体识别工具pyunit
‑
ner仅能识别人民、地址和组织机构三类实体，而且模型训练代码未公开，无法进行新语料添加和重训练；
[0004]二、公开的细粒度命名实体识别语料CLUENER涉及的领域为体育、金融、游戏等领域，将其迁移到社会治理云领域难以达到理想的效果；
[0005]三、政务文本领域的中文机构名中罕见词多、结构复杂,不同领域机构的命名规则差异大，且地址表达式呈现随意性、多样性和歧义性，导致编码规则容易出现错误。
[0006]由此可见，现有的实体识别方案对于社会治理领域丰富且差异化的底层特征难以进行准确的标记和实体识别，且识别行为容易...

【技术保护点】

【技术特征摘要】
1.一种基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，本方法包括以下步骤：S1、运行实体识别工具pyunit
‑
ner对民众投诉和咨询类数据进行收集并制作与标注实体相关的词典；S2、将标注词典作为多关键词匹配算法WuManber的查询项，对数据进行语料自动标注；S3、将文本数据中的字、词、词性和知识KG特征转化为词嵌入形式的向量，拼接组合成BiLSTM模型的输入变量；S4、利用BiLSTM模型提取词语的内在特征后输入到CRF层，CRF层则计算待标注序列中所有位置的标注得分以及相邻位置标注之间的转移得分，并输出文字形式的序列标注结果。2.根据权利要求1所述的基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，其特征在于，在步骤S1中，民众的投诉和咨询类数据通过政务服务网抓取。3.根据权利要求2所述的基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，其特征在于，在步骤S2中，所述的语料自动标注的内容包括地理位置及中文人名，其中，职能部门名称从政务公开网站获取，地理位置包括细分为行政区域地名、街巷名、小区、门址以及标志物。4.根据权利要求2所述的基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，其特征在于，步骤S3具体包括以下步骤：S21、运行实体识别工具github上的Chinese
‑
Names
‑
Corpus，从标注词典中解析出组织机构名，并借分词和词性标注成企业或个体户名称中的feature和function词典；S22、按照标签类别进行分类并建立映射关系，作为标注的词汇知识库KG；S23、对于待标注的每条数据，通过算法WuManber搜索所有匹配到的关键词及其在文本中的位置信息，并在相应的位置打上对应的Tag标签，其余位置则标O标签。5.根据权利要求4所述的基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，其特征在于，所述的字、词、词性以及知识KG四类特征在向量化的过程中序列长度保持一致，且采集jieba分词工具进行分词，在四类特征向量化的过程中，词和词性特征能够进行合并处理。6.根据权利要求1所述的基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，其特征在于，在步骤S4中，对输出的序列标注结果采用下列方式的实体抽取：S41、合并序列结果中所有以B、M、E开头且具有相同后缀的实体标签，生成新的词序列并抽取部分目标实体；S42、根据地址编码规则和组织机构模式库，采用多关键词匹配算法WuManber进一步对中文地址和组织机构实体提取。7.根据权利要求6所述的基于BiLSTM
‑
CRF的社会治理领域事件要素命名实体识别的方法，...

【专利技术属性】
技术研发人员：吴马军，宋超伟，吴亦奇，谢秋妹，朱赟，
申请(专利权)人：浙江嘉兴数字城市实验室有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人