一种基于LSTM的中标网页命名实体抽取方法技术

技术编号：21115991 阅读：25 留言：0更新日期：2019-05-16 09:03

本发明专利技术涉及一种中标数据的命名实体识别方法，包括如下步骤：对中标网页的文本数据进行清洗，得到中标文本；利用Lattice‑LSTM作为编码层得到文本数据的语义信息特征；利用LSTM作为解码层对每个字进行实体标注，标记出语句序列中的实体信息；进行规则的校正和格式化处理；最后输出识别出的中标网页的命名实体。本发明专利技术基于Lattice‑LSTM‑LSTM模型，能够高效的识别招标网站的中标项目详情页面中的命名实体。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于LSTM的中标网页命名实体抽取方法
本专利技术涉及命名实体识别
，具体涉及一种基于LSTM的中标网页命名实体抽取方法。
技术介绍
命名实体识别是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性，因而，通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理，称为命名实体识别。作为自然语言处理的一个基础任务，命名实体识别的相关研究吸引了越多越多专家和学者的密切关注，并提出了一些优化算法和模型。有学者提出一种基于层叠HMM模型的命名实体识别算法，首先对人名和地名进行识别，然后作为特征进行高层的机构名识别；有学者提出一种基于条件随机场的中文命名实体识别算法，并得到基于字，边界，词性和实体字典作为特征可以取到很好的效果；有学者提出一种基于bootstrapping的方法，利用bootstrapping技术扩大种子词表解决人工标注数据不足的问题；有学者提出一种基于BLSTM的神经网络结构的命名实体识别算法，该方法不再直接依赖于人工特征和领域知识，而是利用基于上下文的词向量和基于字的词向量，前者表达命名实体的上下文信息，后者表达构成命名实体的前缀、后缀和领域信息；有学者提出一种基于BLSTM-CRF模型的命名实体识别算法，对句子进行序列标注时，词之间的label不是独立的，而是考虑前面词的标签信息进而结合词的信息再标记当前词的tag，CRF取代使用softmax从该层输出，产生每个单词的最终预测；有学者提出一种基于堆叠式自编码分...

【技术保护点】
1.一种基于LSTM的中标网页命名实体抽取方法，其特征在于，具体包括以下步骤：步骤A：对待抽取中标网页的文本数据进行清洗，得到中标文本；步骤B：以Lattice‑LSTM模型作为编码层，并将中标文本作为编码层的输入，得到中标文本的语义信息特征；步骤C：以LSTM模型作为解码层，并将得到的中标文本的语义信息特征作为解码层的输入，对中标文本中的每个字进行标注；步骤D：对得到的带标注的中标文本进行规则校正和格式化处理；步骤E：输出识别的命名实体。

【技术特征摘要】
1.一种基于LSTM的中标网页命名实体抽取方法，其特征在于，具体包括以下步骤：步骤A：对待抽取中标网页的文本数据进行清洗，得到中标文本；步骤B：以Lattice-LSTM模型作为编码层，并将中标文本作为编码层的输入，得到中标文本的语义信息特征；步骤C：以LSTM模型作为解码层，并将得到的中标文本的语义信息特征作为解码层的输入，对中标文本中的每个字进行标注；步骤D：对得到的带标注的中标文本进行规则校正和格式化处理；步骤E：输出识别的命名实体。2.根据权利要求1所述的一种基于LSTM的中标网页命名实体抽取方法，其特征在于：所述步骤B具体为：步骤B1：将中标文本中的字转化为字向量；其中，对于中标文本中的第j个字cj，转化为字向量计算公式如下：其中，ec表示字符向量映射表；步骤B2：将中标文本中的词转换为词向量；步骤B3：将词向量输入Lattice-LSTM模型，利用Lattice-LSTM模型得到中标文本的语义信息特征。3.根据权利要求2所述的一种基于LSTM的中标网页命名实体抽取方法，其特征在于，所述步骤B2具体为：步骤B21：根据大规模语料库利用Tire树构造词表D；步骤B22：初始化一个空的中标文本的匹配词集合P；步骤B23：将中标文本的第一个字作为当前字开始遍历，执行步骤B24；步骤B24：将词表D中匹配以当前字为词首字的词加入到集合P中；其中，b表示词的第一个字在句中的位置，e表示词的最后一个字在句中的位置；步骤B25:将当前字的下一个字符作为当前字，迭代执行步骤B24，直到中标文本的最后一个字符结束；步骤B26：遍历结束后将集合P中的转换为词向量计算公式如下所示：其中，ew为词向量映射表。4.根据权利要求2所述的一种基于LSTM的中标网页命名实体抽取方法，其特征在于，所述步骤B3具体如下：对于文本中的每个句子，依次输入步骤B1得到的字向量序列和步骤B2得到的词向量序列到Lattice-LSTM模型中，输出每个字在上下文的语义信息的向量表示序列，具体计算公式如下所示：是句中的第j个字的字向量，是句中以第j个字为结尾的词的词向量，为j时刻的输出；为词语级LSTM的权重矩阵，为词语级LSTM的偏置项；是词语级LSTM在j时刻的遗忘门；是词语级LSTM在j时刻的输入门；是词语级LSTM在j时刻的候选记忆向量；是词语级LSTM在j时刻的记忆向量；为字符级LSTM的权重矩阵，为字符级LSTM的偏置项；是字符级LSTM在j时刻的输入门；是词语级LSTM在j时刻的候选记忆向量；是词语级LSTM在j时刻的记忆向量；是词语级LSTM在j时刻的输出门；是计算时的权重。5.根据权利要求...

【专利技术属性】
技术研发人员：陈羽中，林剑，郭昆，
申请(专利权)人：福州大学，
类型：发明
国别省市：福建,35

全部详细技术资料下载我是这个专利的主人