【技术实现步骤摘要】
一种用于文本标记的快速映射方法
本专利技术涉及机器学习的样本的生产方法,具体涉及一种利用文本映射标记来进行人工生产样本的方法。
技术介绍
现行的机器学习方案均需要样本和数据进行训练,所以前期的样本获取对于机器学习模型的训练与优化就显得至关重要。一般而言,机器学习的样本往往是没有现成数据的,需要人工去标记生产。在人工标记生产样本的过程中,工具平台必不可少。利用工具平台的技术方法,可以让数据标记员的工作效率大幅提升。然而,现有技术中IT化工具平台的效率并不高,其存在以下两个巨大的问题:1)原始非结构化文本跟结构化文本的信息之间没有位置对应关系,信息回溯进行二次验证的过程很困难,无法知道结构化文本中的信息是从原文哪里提取出来的;2)数据标记员在进行前期样本标记的过程中,采用的方法是读原文,找到原文中需要的信息,然后将需要的信息一项项填入到对应的结构化表格中;在输入的过程很容易打错字,并且输入效率低下,准确性跟时效性都没办法保证。由于上述原因,本专利技术人对现有的技术进行改进,研究出一种用于文本标记的快速映射方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究, ...
【技术保护点】
1.一种用于文本标记的快速映射方法,其特征在于,该方法包括:待抽提信息的文档与结构化表格建立对应关系;将文档中待抽提的信息标记提取至格式化表格中,建立映射。
【技术特征摘要】
1.一种用于文本标记的快速映射方法,其特征在于,该方法包括:待抽提信息的文档与结构化表格建立对应关系;将文档中待抽提的信息标记提取至格式化表格中,建立映射。2.根据权利要求1所述的快速映射方法,其特征在于,所述待抽提信息的文档为纯文本格式,并设置有行号;所述结构化表格的表头中设置有设定的项目;所述结构化表格与待抽提信息的文档具有相同的属性。3.根据权利要求1或2所述的快速映射方法,其特征在于,所述浏览器通过CSS技术将信息抽提时的工作网页分为左侧视窗和右侧视窗;优选左侧视窗内显示待抽提信息的文档内容,在右侧视窗内显示的是设定结构的表格。4.根据权利要求3所述的快速映射方法,其特征在于,鼠标在左侧视窗内划选目标内容后,通过JS程序控制浏览器的CSS样式信息,改变右侧视窗内结构化表格表头下单元格的背景颜色;鼠标移动至结构化表格表头下的任一单元格后,JS程序控制该单元格的CSS样式信息,使该单元格的背景颜色再次改变。5.根据权利要求4所述的快速映射方法,其特征在于,JS程序获取鼠标在工作网页左侧视窗内划选的目标内容和该内容所对应的位置信息;鼠标移动至结构化表格表头下的任一单元格并点击后,根据浏览器获取到鼠标的点击事件,JS程序将鼠标划选的目标内容填充在鼠标点击的...
【专利技术属性】
技术研发人员:淡强强,刘炬光,吴雪军,
申请(专利权)人:鼎复数据科技北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。