【技术实现步骤摘要】
一种基于文本的实体识别方法及相关装置
本申请涉及实体识别
,尤其涉及一种基于文本的实体识别方法及相关装置。
技术介绍
命名实体识别在自然语言处理中扮演者非常重要的角色,它是信息抽取、信息检索、机器翻译和问答系统扥自然语言处理任务的基础,命名实体识别的主要任务就是识别出文本中类似于名称和机构等专有词,并对其进行分类。现有的命名实体识别方法的特征提取受人工影响较大,且没有考虑时间因素这一特征的影响,导致命名实体的识别准确度较低,另外,一些深度循环网络的计算量非常大,要消耗大量的时间完成计算。
技术实现思路
本申请提供了一种基于文本的实体识别方法及相关装置,用于解决现有技术计算耗时较长、特征选取不可靠以及识别准确度较低的技术问题。有鉴于此,本申请第一方面提供了一种基于文本的实体识别方法,包括:通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集,所述词语特征向量集包括词语特征向量;采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量,构成上下文特征 ...
【技术保护点】
1.一种基于文本的实体识别方法,其特征在于,包括:/n通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集,所述词语特征向量集包括词语特征向量;/n采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量,构成上下文特征向量集,所述预置BiLSTM模型基于自注意力机制构建;/n通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集,所述词性特征向量集包括词性特征向量;/n将所述词语特征向量、所述上下文特征向量和所述词性特征向量拼接成融合特征向量,构成融合特征向量集;/n采用预置卷积神经网络模型处理预置边矩阵数据集和所述融合特征向量集,得到 ...
【技术特征摘要】
1.一种基于文本的实体识别方法,其特征在于,包括:
通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集,所述词语特征向量集包括词语特征向量;
采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量,构成上下文特征向量集,所述预置BiLSTM模型基于自注意力机制构建;
通过第二预置Word2Vec模型将预置词性数据集映射为词性特征向量集,所述词性特征向量集包括词性特征向量;
将所述词语特征向量、所述上下文特征向量和所述词性特征向量拼接成融合特征向量,构成融合特征向量集;
采用预置卷积神经网络模型处理预置边矩阵数据集和所述融合特征向量集,得到词语标签概率矩阵;
采用预置CRF模型对所述词语标签概率矩阵进行处理,得到命名实体的识别结果。
2.根据权利要求1所述的基于文本的实体识别方法,其特征在于,所述通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集,所述词语特征向量集包括词语特征向量,之前还包括:
采用爬虫获取大量的文本数据,构成初始文本数据集;
通过预置狄利克雷主题模型对所述初始文本数据集进行筛选,得到筛选后的文本数据集;
利用预置分词工具对所述筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作,得到句法依存图;
根据所述句法依存图得到所述预置词语数据集和所述预置词性数据集。
3.根据权利要求2所述的基于文本的实体识别方法,其特征在于,所述利用预置分词工具对所述筛选后的文本数据集依次进行触发词类型筛选和句法依存分析操作,得到句法依存图,之后还包括:
根据所述句法依存图计算所述预置词语数据集对应的边矩阵,构成所述预置边矩阵数据集。
4.根据权利要求1所述的基于文本的实体识别方法,其特征在于,所述采用预置BiLSTM模型提取所述预置词语数据集的上下文特征向量,构成上下文特征向量集,之前还包括:
构建基于自注意力机制的初始BiLSTM模型;
将所述初始BiLSTM模型进行预训练,得到所述预置BiLSTM模型,所述预置BiLSTM模型包括预训练得到的自注意力权重。
5.一种基于文本的实体识别装置,其特征在于,包括:
第一映射模块,用于通过第一预置Word2Vec模型将预置词语数据集映射为词语特征向量集,所...
【专利技术属性】
技术研发人员:左亚尧,洪嘉伟,陈致然,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。