【技术实现步骤摘要】
基于分布式平台的行业文本实体提取方法
本专利技术涉及一种文本实体的提取方法,具体地涉及一种基于分布式平台的行业文本实体提取方法。
技术介绍
传统的文本提取方法采用模式匹配关系抽取方法、基于词典驱动的关系抽取、基于机器学习的关系抽取法等,这些方法先大部分是通过分词的方法提取文本中词频比较高的词语作为有效实体。这些方法适合于文本中实体比较单一的场景,但是不同语境下,这些方法不能有效的区分不同语境下实体,会将原来不需要分割或者合并实体错误的分割和合并。同时,传统检测方法对以前文本中没有出现的过的词语,很难通过分词方法进行提取。近期出现了许多基于深度学习的提取实体方法,其中提取实体算法分为计算性能比较好但提取精确不是较高、提取精度比较高但计算性能比较慢的两种模型。如快速线性实体提取模型、卷积神经网络就是快速模型,非线性实体提取模型、深度神经网络模型就是准确度比较好的模型。中国专利文献CN2017100036859公开了一种基于深度学习的在线中医文本命名实体识别方法,该实体提取方法通过爬虫丰富文本训练样本集,同时采用神经网络的方法提取文本特征,这在一定程度上可以提取样本的实 ...
【技术保护点】
一种基于分布式平台的行业文本实体提取方法,其特征在于,包括以下步骤:S01:采用深度学习神经网络训练文本数据集得到关系特征模型,并通过关系特征模型提取目标文本中的关系特征;S02:将提取的关系特征生成多个弹性分布式关系特征数据集RDD;S03:将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;S04:根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;S05:判断相应语境文的本数量是否超过设定阈值T,若超过阈值T时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据 ...
【技术特征摘要】
1.一种基于分布式平台的行业文本实体提取方法,其特征在于,包括以下步骤:S01:采用深度学习神经网络训练文本数据集得到关系特征模型,并通过关系特征模型提取目标文本中的关系特征;S02:将提取的关系特征生成多个弹性分布式关系特征数据集RDD;S03:将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;S04:根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;S05:判断相应语境文的本数量是否超过设定阈值T,若超过阈值T时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。2.根据权利要求1所述的基于分布式平台的行业文本实体提取方法,其特征在于,所述步骤S01具体包括:S11:通过ansj开源分词方法将文本进行分词,统计每个词在所有文本中的词频和在当前文本中的词频,去除一般性助词、停用词以及频率高的词语,将所有文本根据当前文本中的词频和所有文本中的词频的关系,提取出N个词,将每一类放在同一个文件夹中;S12:将N个词中的每个词随机设置为A维的数据特征,每个文本组成N*A维数据;S13:将每个词特征作为深度学习神经网络输入节点神经元,然后通过第一隐藏层进行卷积,通过第二隐藏层进行子抽样和局部平均,通过...
【专利技术属性】
技术研发人员:武克杰,周书勇,
申请(专利权)人:江苏华通晟云科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。