【技术实现步骤摘要】
工业领域文本要素抽取系统及方法
[0001]本专利技术属于自然语言处理(NLP)算法领域,涉及机器阅读理解模型、深度学习算法、神经网络算法,具体涉及一种工业领域文本要素抽取系统及方法。
技术介绍
[0002]要素抽取属于文本分类应用,其通过模型自动抽取非结构化文本中用户所需要的字段信息,作为结构化知识保存起来。工业领域文本中,如工艺说明书、维修记录等,时常面对以下两种问题:
[0003]1.标注数据少:工业领域应用由于专业性较强或保密要求等因素,在公开领域中很难收集数据,在应用时,部分类别甚至只有几篇文档;同时,一般不会有标注数据,或者标注数据极少。
[0004]2.字段多:在工业领域应用中,时常遇见成百上千的字段需要抽取。
[0005]传统的基于监督学习分类的抽取模型,如RNN+CRF及基于BERT类模型的文本抽取应用均采用同一个模式:针对一个抽取字段获取训练数据,然后训练序列标注模型,训练结束后方可进行该字段的预测。在拥有充分标注数据的场景下,此方案是适用的。但这样的方案直接应用于字段多且标注数据 ...
【技术保护点】
【技术特征摘要】
1.一种工业领域文本要素抽取系统,其特征在于,包括阅读理解模型单元、字段抽取模型单元、待抽取文本输入单元、待抽取字段输入单元和字段抽取结果输出单元;所述阅读理解模型单元、待抽取文本输入单元和待抽取字段输入单元三者分别连接至所述字段抽取模型单元的输入端,所述字段抽取结果输出单元连接至所述字段抽取模型单元的输出端;所述阅读理解模型单元内具有基于BERT的阅读理解模型,其阅读理解的训练数据为SQUAD类型的抽取式阅读理解任务;所述字段抽取模型单元内具有所述阅读理解模型,所述字段抽取模型单元适于围绕所述待抽取字段输入单元所输入的待抽取字段设置字段相关问题,并将该字段相关问题输入所述阅读理解模型,所述待抽取文本输入单元向所述阅读理解模型输入待抽取文本,所述阅读理解模型适于根据所述待抽取文本及所述字段相关问题抽取出工业领域文本要素,并向所述字段抽取结果输出单元输出该字段抽取结果。2.根据权利要求1所述的工业领域文本要素抽取系统,其特征在于,所述阅读理解模型单元内还包括非结构化文本数据模块及基于BERT的语言模型,所述非结构化文本数据模块的输出端连接至所述基于BERT的语言模型的输入端,所述基于BERT的语言模型的输出端连接至所述基于BERT的阅读理解模型的输入端。3.根据权利要求1或2所述的工业领域文本要素抽取系统,其特征在于,所述阅读理解模型单元内还包括阅读理解标注数据模块,所述阅读理解标注数据模块的输出端连接至所述基于BERT的阅读理解模型的输入端。4.根据权利要求3所述的工业领域文本要素抽取系统,其特征在于,所述字段抽取模型单...
【专利技术属性】
技术研发人员:侯聪,吴万杰,文敏,白良俊,纪达麒,陈运文,
申请(专利权)人:达而观数据成都有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。