一种用于非结构化铁路知识实体的序列标注方法技术

技术编号:35508181 阅读:12 留言:0更新日期:2022-11-09 14:21
本发明专利技术公开一种用于非结构化铁路知识实体的序列标注方法,先构建TXT/JSON格式文件导入函数及界面;然后设计模式选择界面及引导按钮;再根据常用的标注方法设计BIO,BIOES标注函数及界面并构建自定义标签函数模式及相关界面、按钮;构建铁路专业词汇数据库;通过实体检索分类完成序列标注并构建铁路纯净语料数据库;统计显示字段及实体数量;设计TXT/JSON标注序列文件导出,本发明专利技术可以为铁路领域自然语言处理技术提供精准且大量的非结构化标注数据,为铁路实体标注收集纯净的非结构化语料文本,为构建智慧铁路知识图谱奠定基础。为构建智慧铁路知识图谱奠定基础。为构建智慧铁路知识图谱奠定基础。

【技术实现步骤摘要】
一种用于非结构化铁路知识实体的序列标注方法


[0001]本专利技术涉及智能铁路知识图谱领域,旨在为铁路领域自然语言处理技术提供精准且大量的非结构化标注数据,为铁路实体标注收集语料文本,为构建智慧铁路知识图谱奠定基础,具体为一种用于非结构化铁路知识实体的序列标注方法。

技术介绍

[0002]随着科学技术的发展,铁路智能化时代正在到来。在国内的智能铁路项目也吸引了大量的关注,比如智能京张铁路。国内还成立了国家铁路智能交通系统工程技术研究中心,提出了铁路智能交通系统总体框架。与此同时,人工智能技术也在近年得到了飞速发展。人工智能包括计算层、感知层和认知层。人工智能是对人类的完全模仿,具有理解和思考的能力。知识图谱是认知层的基础,图谱技术在医药、金融等行业取得了很多成就,但轨道交通行业仍处于萌芽阶段。在铁路领域构造智慧铁路知识图谱的研究到目前为止还存在很多问题值得探讨,还具有很多问题需要解决。自然语言处理技术中的实体识别是构建知识图谱的必要环节,实现铁路实体识别需要大量的铁路实体标注语料训练集;而在目前为止,还未有网站或商户提供专业的非结构化铁路实体标注语料,获取非结构化铁路实体标注语料仍是费时费力的工程。

技术实现思路

[0003]针对上述问题,本专利技术的目的在于提供一种能够精准快速的获取非结构化铁路实体标注语料的方法,为铁路领域的自然语言处理研究提供底层材料,为构建智慧铁路知识图谱奠定了基础。
[0004]本专利技术的技术方案如下:一种用于非结构化铁路知识实体的序列标注方法,包括以下步骤,步骤1、非结构化数据导入;根据非结构化铁路知识实体的文件格式形成TXT/JSON文件的导入函数及文件导入的界面、操作引导按钮;步骤2、模式选择设计;根据非结构化铁路知识实体的不同序列标注方法,序列标注方法采用BIO或BIOES;步骤3、自定义标签设计;根据对非结构铁路知识实体标签的标注需求,基于BIO和BIOES序列标注方法设计自定义标签函数;步骤4、构建数据库及铁路专业词汇库;划出多个空白数据库添加所需要标注的非结构化铁路知识实体,确保非结构化铁路知识实体与序列标注函数之间的连接,使序列标注函数精准检索及调用添加的非结构化铁路知识实体,使用MySQL构建后台铁路专业词汇库,与此同时将数据库中的非结构化铁路
知识实体添加至后台铁路专业词汇库;步骤5、实体检索及铁路语料文本库构建;使用步骤2中的BIO和BIOES序列标注函数或步骤3的自定义序列标注函数,精准检索及添加非结构化铁路知识实体标签,完成序列标注;同时,使用MySQL构建后台铁路语料文本库,在每一次使用后根据非结构化铁路知识实体分类保存导入的含有铁路知识实体的纯净文本至后台铁路语料文本库,供后期反向获取纯净文本;步骤6、导入字段及铁路标注实体统计显示设计;设计字段及标注实体统计函数,进行序列标注时使用统计函数对文本总字段、标注的非结构化铁路知识实体种类及其具体个数进行统计,并以柱状图的形式在统计显示页面上显示;步骤7、文件多格式导入导出设计:对于非结构数据,按照TXT以及JSON文件的导入与导出。
[0005]进一步的,BIO序列标注方法具体为,将非结构化铁路知识实体中每个元素标注为B、I或O ,其中B为开始,I为中间,O为其他。
[0006]进一步的,自定义标签为,将B和I扩展为B

X、I

X得到自定义标签,B

X表示元素所在的片段属于X类型并且元素在所在片段的开头,I

X表示元素所在的片段属于X类型并且元素在所在片段的中间位置,O表示不属于任何类型。
[0007]进一步的,BIOES序列标注方法具体为,B
ꢀ‑ꢀ
Begin表示开始,I
ꢀ‑ꢀ
Intermediate为中间字,E
ꢀ‑ꢀ
End表示结尾,S
ꢀ‑ꢀ
Single表示单个字符,O
ꢀ‑ꢀ
Other表示其他用于标记无关字符。
[0008]进一步的,BIOES自定义标签通过在B、I、O、E、S后面添加拓展属性定义从而完成自定义标签。
[0009]进一步的,其允许使用者自定义添加所需要标注的非结构化铁路知识实体,允许使用者除了采用BIO,BIOES两种常用标注方法还可以自定义标签,允许使用者导入导出TXT或者JSON格式;其后台的铁路实体专业词汇库通过收录标注关键词并由专业人员定期增删,为使用者提供铁路实体参考;其根据铁路标注实体分类保存使用者导入的未标注语料,可通过关键词反向获取含有铁路实体的纯净语料。
[0010]本专利技术的有益效果是:本专利技术可以快速准确的进行非结构化铁路知识实体的大规模多模式序列标注,并且可以通过铁路实体回溯相关的纯净文本,为铁路领域的自然语言处理研究提供训练语料,为构建智慧铁路知识图谱奠定了基础。
附图说明
[0011]图1本专利技术技术方案流程和原理图。
[0012]图2本专利技术技术方案中的非结构化铁路知识实体序列标注图。
[0013]图3本专利技术技术方案中的非结构化铁路纯净文本回溯图。
[0014]图4本专利技术技术方案中的主要界面功能示意图。
[0015]图5本专利技术技术方案中的标签自定义示意图。
[0016]具体使用方式下面结合附图和具体实施例对本专利技术做进一步详细说明。
[0017]实施例1本专利技术实现了非结构化铁路实体的一键序列标注,为铁路领域自然语言处理研究提供底层的标注语料;其允许使用者自定义添加所需要标注的非结构化铁路知识实体,允许使用者除了采用BIO、BIOES两种常用标注方法还可以自定义标签,允许使用者导入导出TXT或者JSON格式;其后台的铁路实体专业词汇库通过收录标注关键词并由专业人员定期增删,为使用者提供铁路实体参考;其根据铁路标注实体分类保存使用者导入的未标注语料,可通过关键词反向获取含有铁路实体的纯净语料。
[0018]本专利技术的非结构化数据是指计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本等等,在本实施例中暂时仅针对TXT和JSON格式的文本文档。
[0019]本专利技术的知识实体是具体的事物,知识实体可以是人、地方、组织机构、概念等等。在本专利技术中的铁路知识实体指的是铁路领域中的专业词汇或设备词汇,如:转辙机,应答器,车站联锁,信号机等等。
[0020]本专利技术未经标注操作的文档数据,在此处为未经标注的TXT或JSON文档,即为一个纯净文本,没有任何标注的纯文本。
[0021]本专利技术的标签是种类相关性很强的关键字,能够进行轻松的描述和分类内容,以便于检索和分享,例如最典型的标签有人名、地名、设备名称等。实体标签则指的是针对知识实体,具有对知识实体进行类别划分的关键词,例如车载设备、地面设备等。
[0022]本专利技术的序列标注(Sequence labelin本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于非结构化铁路知识实体的序列标注方法,其特征在于:包括以下步骤,步骤1、非结构化数据导入;根据非结构化铁路知识实体的文件格式形成TXT/JSON文件的导入函数,并将文件导入非结构化铁路知识实体标注工具中,非结构化铁路知识实体标注工具以界面形式存在,在界面中的操作引导按钮包括文件导入、标注模式选择、标注实体、语料回溯;步骤2、模式选择设计;设计非结构化铁路知识实体的序列标注模式,序列标注模式采用BIO或BIOES;步骤3、自定义标签设计;根据对非结构铁路知识实体的标签的标注需求,基于BIO和BIOES序列标注模式设计标签的序列标注模式;步骤4、构建数据库及铁路专业词汇库;划出多个空白数据库添加所需要标注的非结构化铁路知识实体,使用MySQL构建后台铁路专业词汇库,将数据库中的非结构化铁路知识实体添加至后台铁路专业词汇库;步骤5、实体检索及铁路语料文本库构建;使用步骤2中的BIO和BIOES序列标注模式或步骤3的自定义序列标注模式,精准检索及添加非结构化铁路知识实体的标签,完成序列标注;同时,使用MySQL构建后台铁路语料文本库,在每次使用后,根据非结构化铁路知识实体分类保存导入的含有铁路知识实体的纯净文本至后台铁路语料文本库,供后期反向获取纯净文本;步骤6、导入字段及铁路标注实体统计显示设计;设计字段及标注实体统计函数,进行序列标注时使用统计函数对文本总字段、标注的非结构化铁路知识实体种类及其具体个数进行统计,并以柱状图的形式在统计显示页面上显示;步骤7、...

【专利技术属性】
技术研发人员:李赛飞吴昊闫连山姚涛蒲桂东
申请(专利权)人:艾迪恩山东科技有限公司西南交通大学烟台新一代信息技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1