【技术实现步骤摘要】
一种文化资源实体识别训练数据的自动标注系统及方法
[0001]本公开属于计算机、人工智能
,特别涉及一种文化资源实体识别训练数据的自动标注系统及方法。
技术介绍
[0002]近几年,人工智能技术发展迅速,各行各业都开始融合人工智能技术进行创新和发展。人工智能的核心内容在于它的算法或者说是模型,一个模型往往需要大量的数据来进行模型训练,以此来提高它的智能性。所以数据的格式化标注就是人工智能应用第一阶段的任务。目前的格式化标注方式以人工为主,一种是全人工标注,另一种是在标注工具辅助下的人工标注。不管是哪种标注方式,当遇到大规模的数据需要标注时,按以往的标注方式人工成本将会非常高,而且效率低下,准确度也得不到保证。这是在标注时面临的一大难题。
[0003]人工智能技术的目的就是让机器拥有人类的认知能力。人类的认知能力是通过不断的学习得到的,同理机器的认知能力也需要通过不断的学习来获得,而标注好的数据就是机器的学习资料。比如我们想让机器识别“狗”图片,直接拿一张小狗的图片给它,它是没有办法分辨出这是小狗。当我们把大量标 ...
【技术保护点】
【技术特征摘要】
1.一种文化资源实体识别训练数据的自动标注系统,其包括前缀集合构建模块、关键词匹配模块、区间合并模块、工具调用模块和格式转换模块,其中,前缀集合构建模块通过读入的关键词字典,采用前缀集合构建算法将关键词字典转换为前缀集合;关键词匹配模块接收所述前缀集合以及原始文本,通过关键词匹配算法将原始文本中的领域关键词识别出来并将其在原始文本中的位置区间记录到信息集中;区间合并模块接收所述信息集,通过区间合并算法解决关键词区间包含和相交的问题,最终生成新的信息集,并将所述新的信息集中的元素保存到分析文本中;工具调用模块用于识别文化领域内通用专有名词,并将其添加到所述新的信息集中,并将所述新的信息集中的元素保存到分析文本中;格式转换模块将所述分析文本和原始文本通过格式转换算法转换为成熟的标注文本。2.根据权利要求1所述的系统,优选的,所述前缀集合构建算法是将相同前缀的关键词放在同一组。3.根据权利要求1所述的系统,所述信息集中的元素采用二元组(b,e)的形式来表示,其中b表示领域关键词在原始文本中的开始索引,e表示领域关键词在原始文本中的结束索引。4.根据权利要求1所述的系统,所述新的信息集中的元素采用三元组(b,e,k)表示,其中b表示领域关键词在原始文本中的开始索引,e表示领域关键词在原始文本中的结束索引,k表示领域关键词的类别信息。5.根据权利要求1所述的系统,所...
【专利技术属性】
技术研发人员:王小明,李彦文,林亚光,李鹏,郭龙江,白元杰,
申请(专利权)人:陕西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。