【技术实现步骤摘要】
基于自定义的知识槽结构的文本知识抽取系统和方法
本专利技术涉及文本知识抽取系统领域,具体涉及一种基于自定义的知识槽结构的文本知识抽取系统和方法。
技术介绍
随着大数据的时代的快速发展,人工智能技术的提高,基础数据样本对数据分析越来越重要,但是普通的知识获取基本上是基于结构化数据或者是人工操作。文本知识抽取中常见的是结构化抽取,以及实体抽取。一种是用搜索个体所组成的群体优势动态地搜索,并采用一种有效的正区比较进行特征组合得到多知识的方法,包括以下步骤:计算约简初值;启用双矩编码策略;搜索初始化;计算结束判据;计算搜索个体的适应值;最优保存;状态转移联合操作。本专利技术采用双矩编码策略,搜索个体位置编码成0、1字符串,维度与条件属性个数相同。当维度规模超过23时,完成约简所消耗的时间并不呈指数显著增长,节约了空间维度和时间。本专利技术采用粗糙集正区判别POS'E=U′pos适应值为对应条件属性个数,如果POS'E≠U′pos适应值惩罚为条件属性总数,这一策略简单合理地保证了知识抽取效果。一种是针对表格数据,进行提取,包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。一种基于规则与深度学习的知识抽取方法,包括以下步骤:一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本,利用深度学习方法进行训练;从而得到更多的概念和概念之间的关系。四将步骤三中得到 ...
【技术保护点】
1.一种基于自定义的知识槽结构的文本知识抽取方法,其特征在于,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。
【技术特征摘要】
1.一种基于自定义的知识槽结构的文本知识抽取方法,其特征在于,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。2.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤200具体包括:步骤210:用户在页面上上传文件;步骤220:用户在页面上选择知识树样本;步骤230:判断上传文件是否是压缩包,如果是压缩包则进入步骤240,否则进入步骤250;步骤240:将压缩包文件进行解压操作,并且得到压缩包里面的全部文件,对全部文件进行数组化;步骤250:对单个文件进行后缀名判断,如果其是图片文件或者PDF文件,进入步骤260,如果不是就进入步骤270;步骤260:针对PDF文件,先对其进行简单的读取操作,如果其是图片则将PDF每一页转换成图片格式然后进行图片文件的操作;如果不是图片就进行文本读取,按照位置信息合并文本文档;针对图片文件,对图片使用文字位置感知模型,找出其有文字区域的位置信息,然后按照位置进行区域合并,确保其文字信息不会出现乱行出错,对已找到的文字区域进行二值化处理,使用文字识别模型对已处理的图片进行文字识别,得到其识别结果。步骤270:读取不同格式的文件,并且对不同格式的文件进行不同的操作。3.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤400具体包括:步骤410:使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配,最大双向匹配,ngram,HMM进行中文分词;步骤420:使用word2vec对需要处理的知识样本树进行向量化,以及已分词的短语向量化;步骤430:使用BiLstm-Crf进行模型训练,找出其实体以及各个短语的词性(对未提供知识样本树的的文件进行实体抽取,并且将部分实体保存成知识样本树);步骤440:利用文本向量化之后的向量,对知识样本树中的关键字跟文本进行相似度匹配,利用余弦定理;步骤450:利用知识样本树中的关键字对短语进行匹配,并且将已匹配的短语进行其属性进行提取。4.如权利要求3所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤440具体包括:步骤441:根据已分割的子文本进行知识实体树的子树的关键字的提取;步骤442:...
【专利技术属性】
技术研发人员:张坤,于阳阳,管慧娟,孔令军,李华康,
申请(专利权)人:苏州派维斯信息科技有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。