基于自定义的知识槽结构的文本知识抽取系统和方法技术方案

技术编号:21971608 阅读:59 留言:0更新日期:2019-08-28 01:30
本发明专利技术公开了一种基于自定义的知识槽结构的文本知识抽取系统和方法。本发明专利技术一种基于自定义的知识槽结构的文本知识抽取方法,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树。本发明专利技术的有益效果:利用通过一个前端页面提供业务人员设定某个知识的基础结构,得到其需要抽取的非结构化文本内容,文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割。

A Text Knowledge Extraction System Based on Customized Knowledge Slot Structure

【技术实现步骤摘要】
基于自定义的知识槽结构的文本知识抽取系统和方法
本专利技术涉及文本知识抽取系统领域,具体涉及一种基于自定义的知识槽结构的文本知识抽取系统和方法。
技术介绍
随着大数据的时代的快速发展,人工智能技术的提高,基础数据样本对数据分析越来越重要,但是普通的知识获取基本上是基于结构化数据或者是人工操作。文本知识抽取中常见的是结构化抽取,以及实体抽取。一种是用搜索个体所组成的群体优势动态地搜索,并采用一种有效的正区比较进行特征组合得到多知识的方法,包括以下步骤:计算约简初值;启用双矩编码策略;搜索初始化;计算结束判据;计算搜索个体的适应值;最优保存;状态转移联合操作。本专利技术采用双矩编码策略,搜索个体位置编码成0、1字符串,维度与条件属性个数相同。当维度规模超过23时,完成约简所消耗的时间并不呈指数显著增长,节约了空间维度和时间。本专利技术采用粗糙集正区判别POS'E=U′pos适应值为对应条件属性个数,如果POS'E≠U′pos适应值惩罚为条件属性总数,这一策略简单合理地保证了知识抽取效果。一种是针对表格数据,进行提取,包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。一种基于规则与深度学习的知识抽取方法,包括以下步骤:一专家定义概念并对概念之间的关系进行定义并生成规则。二将生成的规则进行知识抽取,抽取出匹配概念和概念之间关系的文本。三将步骤二中抽取出的文本,利用深度学习方法进行训练;从而得到更多的概念和概念之间的关系。四将步骤三中得到的更多的概念和概念之间的关系,进行知识抽取,并将该抽取的结果进行标注;并对知识抽取时的精确率、召回率和F1值进行评判;所述精确率、召回率和F1值作为评价标准。五重复步骤三和步骤四,直至所述评价标准达到预设的标准。本方法能解决机器学习的冷启动问题,也能够得到未知的概念和概念间的关系,能够提高知识抽取的召回率。
技术实现思路
本专利技术要解决的技术问题是提供一种基于自定义的知识槽结构的文本知识抽取系统和方法,该方法利用通过一个前端页面提供业务人员设定某个知识的基础结构,得到其需要抽取的非结构化文本内容,文本语义切割算法根据业务人员提供的文本进行分词以及知识槽模型进行文本向量化对其进行文本切割,实体识别算法根据最好的分割文本进行关键字匹配以及命名实体识别,实体关系抽取算法根据文本提取的实体进行文本词性分析以及语义角色标注,知识结构评价算法根据实体以及实体之间的关系进行相似匹配以及关系的准确性进行评价。为了解决上述技术问题,本专利技术提供了一种基于自定义的知识槽结构的文本知识抽取方法,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。在其中一个实施例中,步骤200具体包括:步骤210:用户在页面上上传文件;步骤220:用户在页面上选择知识树样本;步骤230:判断上传文件是否是压缩包,如果是压缩包则进入步骤240,否则进入步骤250;步骤240:将压缩包文件进行解压操作,并且得到压缩包里面的全部文件,对全部文件进行数组化;步骤250:对单个文件进行后缀名判断,如果其是图片文件或者PDF文件,进入步骤260,如果不是就进入步骤270;步骤260:针对PDF文件,先对其进行简单的读取操作,如果其是图片则将PDF每一页转换成图片格式然后进行图片文件的操作;如果不是图片就进行文本读取,按照位置信息合并文本文档;针对图片文件,对图片使用文字位置感知模型,找出其有文字区域的位置信息,然后按照位置进行区域合并,确保其文字信息不会出现乱行出错,对已找到的文字区域进行二值化处理,使用文字识别模型对已处理的图片进行文字识别,得到其识别结果。步骤270:读取不同格式的文件,并且对不同格式的文件进行不同的操作。在其中一个实施例中,步骤400具体包括:步骤410:使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配,最大双向匹配,ngram,HMM进行中文分词;步骤420:使用word2vec对需要处理的知识样本树进行向量化,以及已分词的短语向量化;步骤430:使用BiLstm-Crf进行模型训练,找出其实体以及各个短语的词性(对未提供知识样本树的的文件进行实体抽取,并且将部分实体保存成知识样本树);步骤440:利用文本向量化之后的向量,对知识样本树中的关键字跟文本进行相似度匹配,利用余弦定理;步骤450:利用知识样本树中的关键字对短语进行匹配,并且将已匹配的短语进行其属性进行提取。在其中一个实施例中,步骤440具体包括:步骤441:根据已分割的子文本进行知识实体树的子树的关键字的提取;步骤442:对已分词的文本将其跟关键字相似度最高的短语进行匹配,;步骤443:对操作的文件进行判断,判断其是否属于Excel表格,如果是进行步骤444,否则进行步骤445;步骤444:Excel表格中存在其上下关系,左右关系,对其处理可能存在子树有多个属性;对其处理需要进行单独的处理;步骤445:文本基本上只能提取其二个实体之间的关系,基于语法树进行文本知识提取。在其中一个实施例中,步骤500具体包括:步骤510:知识提取步骤得到样本知识树中的关键字的键值对;步骤520:对其键值对进行属性值的判断,如果合格进入步骤530,否则进入步骤540;步骤530:将键值对中的值保存,并且跟知识树子树节点一一对应;步骤540:重新操作文本文档,对该关键字进行提取,如果判断出错,就把该关键字的值设置为空;并且进入步骤530。在其中一个实施例中,步骤600具体包括:步骤610:根据操作500得到的完整的键值对,以及用户选择的样本知识树进行实体图的创建;步骤620:根据实体槽模型,以及EVA模型对树的节点进行添枝,并且按照样本知识树进行子树的叶子节点的属性的添加;步骤630:按照图谱展示的结果,对已完成的实体树进行图谱的节点的创建,以及步骤640:按照图谱展示的结果对已完成的实体树进行图谱的节点与节点之间关系的创建;步骤650:把已创建好的节点以及节点跟节点之间的关系进行处理,确保其数据能够插入图数据库中。一种基于自定义的知识槽结构的文本知识抽取系统,包括:知识槽设定模块,通过一个可视化页面提供业务人员设定某个知识的基础结构,并上传所需要抽取的非结构化文本内容;文本本文档来自技高网
...

【技术保护点】
1.一种基于自定义的知识槽结构的文本知识抽取方法,其特征在于,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。

【技术特征摘要】
1.一种基于自定义的知识槽结构的文本知识抽取方法,其特征在于,包括:步骤100:用户在某一个统一格式中的文本在需要提取的知识关键字的创建一个实体知识树以便于后面的文本知识提取;步骤200:用户上传需要文本抽取的文件和选择需要抽取知识的知识样本树;步骤300:按照知识树的分支进行文本的区域划分,并且把其分支的子树的节点作为该子树的根节点,以此类推,直到该分支全部是叶子节点的时候停止,这样可以对在子树中关键字相似度太大的关键字进行区分提高其文本知识抽取的准确,如果在分支中找不到文本区域就以其父区域作为该文本区域,并且需要把父区域的关键字做完为其需要抽取的关键字;步骤400:将已分割之后的文本进行文本知识抽取,可以分为文本分句处理,文本的词性标注与文本的命名实体识别,关键字提取,word2vec等操作;步骤500:将单一抽取的文本进行简单的评测,如果评测结果太小就重新抽取该知识;步骤600:把已经抽取出来的数据实体按照前端需要展示的进行一系列的操作,并且保存到图数据库中。2.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤200具体包括:步骤210:用户在页面上上传文件;步骤220:用户在页面上选择知识树样本;步骤230:判断上传文件是否是压缩包,如果是压缩包则进入步骤240,否则进入步骤250;步骤240:将压缩包文件进行解压操作,并且得到压缩包里面的全部文件,对全部文件进行数组化;步骤250:对单个文件进行后缀名判断,如果其是图片文件或者PDF文件,进入步骤260,如果不是就进入步骤270;步骤260:针对PDF文件,先对其进行简单的读取操作,如果其是图片则将PDF每一页转换成图片格式然后进行图片文件的操作;如果不是图片就进行文本读取,按照位置信息合并文本文档;针对图片文件,对图片使用文字位置感知模型,找出其有文字区域的位置信息,然后按照位置进行区域合并,确保其文字信息不会出现乱行出错,对已找到的文字区域进行二值化处理,使用文字识别模型对已处理的图片进行文字识别,得到其识别结果。步骤270:读取不同格式的文件,并且对不同格式的文件进行不同的操作。3.如权利要求1所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤400具体包括:步骤410:使用知识实体树的节点跟本身提供的数据进行最大向前匹配、最大向后匹配,最大双向匹配,ngram,HMM进行中文分词;步骤420:使用word2vec对需要处理的知识样本树进行向量化,以及已分词的短语向量化;步骤430:使用BiLstm-Crf进行模型训练,找出其实体以及各个短语的词性(对未提供知识样本树的的文件进行实体抽取,并且将部分实体保存成知识样本树);步骤440:利用文本向量化之后的向量,对知识样本树中的关键字跟文本进行相似度匹配,利用余弦定理;步骤450:利用知识样本树中的关键字对短语进行匹配,并且将已匹配的短语进行其属性进行提取。4.如权利要求3所述的基于自定义的知识槽结构的文本知识抽取方法,其特征在于,步骤440具体包括:步骤441:根据已分割的子文本进行知识实体树的子树的关键字的提取;步骤442:...

【专利技术属性】
技术研发人员:张坤于阳阳管慧娟孔令军李华康
申请(专利权)人:苏州派维斯信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1