【技术实现步骤摘要】
基于BERT和Word2Vec向量融合的中文实体识别方法
本专利技术属于命名实体识别领域,具体涉及一种基于BERT和Word2Vec向量融合的中文实体识别方法。
技术介绍
命名实体识别是一项识别文本中指定类型的实体成分并对其进行分类的任务,常见的实体类型包括:人名、地名、机构名等。在网络数据日益剧增的今天,命名实体识别为数据挖掘提供了强有力的支持,同时它也是信息检索、问答系统、知识图谱等任务的重要组成部分。常用的命名实体识别方法主要分为以下三类:基于规则和词典的方法、基于统计机器学习的方法和基于深度学习的方法。基于规则和词典的方法,需要依靠语言学专家手工设计规则模板,选取能够描述预定义类型的实体特征,包括:统计信息、关键字、指示词、位置词以及标点符号等,结合领域内的词典,通过规则模板与字符串匹配的方式进行实体识别。基于统计机器学习的方法,把命名实体识别当作序列标注任务处理,该类方法不需要拥有深厚语言学知识的专家来挑选和设计特征,普通研究人员就可以挑选出能有效反映该类实体特性的特征集合,包括:单词特征、上下文特 ...
【技术保护点】
1.一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,利用BERT模型获取句子中每个字的动态字向量,利用Word2Vec获取静态词向量,通过设计的两种融合策略对多个候选词向量进行融合,然后与字向量拼接,输入到Bi-LSTM-CRF进行模型训练,自动抽取文本中指定类型的实体。/n
【技术特征摘要】
1.一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,利用BERT模型获取句子中每个字的动态字向量,利用Word2Vec获取静态词向量,通过设计的两种融合策略对多个候选词向量进行融合,然后与字向量拼接,输入到Bi-LSTM-CRF进行模型训练,自动抽取文本中指定类型的实体。
2.根据权利要求1所述的一种基于BERT和Word2Vec向量融合的中文实体识别方法,其特征在于,所述中文实体识别方法具体包括以下步骤:
步骤1,获取海量中文文本并进行预处理,利用Python中的jieba模块对文本进行分词,训练Word2Vec模型,获取静态词向量表;
步骤2,对BERT模型进行预训练,把中文文本构造成BERT模型需要的输入格式,具体分为以下几步:
2.1对于原始语料,通过换行来分割句子,通过空行来分割上下文段落;
2.2构建BERT下一句预测预训练任务需要的样本,其中正样本表示的是输入的两个句子是存在上下文关系的连续的两个句子;负样本表示的是不存在语义关系的随机选择的两个句子;
2.3对于超过设定的最大长度的句子,随机选择从句首或句尾进行截断;
2.4将待输入的两个句子用[SEP]标签连接,并且在整个句首添加[CLS]标签,整个句尾添加[SEP]标签;
2.5构建BERT遮蔽语言模型预训练任务需要的样本,随机选择句子中15%的字符进行遮蔽,对于选中的字符80%的时间用[MASK]代替,10%的时间用随机选择的一个字符代替,10%的时间保持原字符不变;
步骤3,根据上述两个预训练任务训练BERT模型,训练目标分别是预测当前输入的句子对是否是存在上下文关系的句子和预测被遮蔽掉字符的原始内容,最终获得预训练好的BERT模型;
步骤4,中文命名实体识别数据集的获取、预处理以及标注,具体标注方式一般采用BIO标注法,其中B表示实体开始字符,I表示实体中间和结尾字符,O表示非实体字符;
步骤5,将步骤4得到的标注好的数据集进行预处理,给每一个句子的句首添加[CLS]标签,句尾添加[SEP]标签,将处理好的句子输入步骤3预训练好的BERT模型,获取BERT模型输出的句子中每一个字符的字向量;
步骤6,对步骤4得到的数据集中的每一个句子,通过与词汇表匹配的方式获取该句子包含的所有候选词语的词向量,将句子中每个字对应的候选词向量通过两种词向量融合策略进行融合,来表示每个字在词汇层面...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。