一种基于BIO的WEB端文本标注方法及系统技术方案

技术编号：26792066 阅读：22 留言：0更新日期：2020-12-22 17:07

本发明专利技术提出了一种基于BIO的WEB端文本标注方法及系统。WEB端文本标注方法，包括以下步骤：步骤S1、通过对历史文本数据进行BIO标注的训练，得到BIO词汇模型；步骤S2、通过WEB端技术获取WEB端文本数据及其位置信息；然后，基于BIO词汇模型对该WEB端文本数据进行BIO标注，再结合位置信息，得到BIO标注结果。本发明专利技术的基于BIO的WEB端文本标注方法及系统设计新颖，实用性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BIO的WEB端文本标注方法及系统
本专利技术涉及标注
，尤其涉及一种基于BIO的WEB端文本标注方法及系统。
技术介绍
在NLP训练平台中，涉及到大量文本信息的处理；其中针对序列标注的方式常以手动对应文本序列与实体LABEL为主，针对命名实体识别(NER)的标注任务文本处理工作量尤为繁重。因此，存在容易出现标注错误以及工作量巨大的问题。
技术实现思路
本专利技术针对上述问题，提出了一种基于BIO的WEB端文本标注方法及系统。本专利技术就上述技术问题而提出的技术方案如下：本专利技术提出了一种基于BIO的WEB端文本标注方法，包括以下步骤：步骤S1、通过对历史文本数据进行BIO标注的训练，得到BIO词汇模型；步骤S2、通过WEB端技术获取WEB端文本数据及其位置信息；然后，基于BIO词汇模型对该WEB端文本数据进行BIO标注，再结合位置信息，得到BIO标注结果。本专利技术上述的WEB端文本标注方法中，BIO词汇模型分为文本分类类型、NER类型以及文本相似...

【技术保护点】
1.一种基于BIO的WEB端文本标注方法，其特征在于，包括以下步骤：/n步骤S1、通过对历史文本数据进行BIO标注的训练，得到BIO词汇模型；/n步骤S2、通过WEB端技术获取WEB端文本数据及其位置信息；然后，基于BIO词汇模型对该WEB端文本数据进行BIO标注，再结合位置信息，得到BIO标注结果。/n

【技术特征摘要】
1.一种基于BIO的WEB端文本标注方法，其特征在于，包括以下步骤：
步骤S1、通过对历史文本数据进行BIO标注的训练，得到BIO词汇模型；
步骤S2、通过WEB端技术获取WEB端文本数据及其位置信息；然后，基于BIO词汇模型对该WEB端文本数据进行BIO标注，再结合位置信息，得到BIO标注结果。

2.根据权利要求1所述的WEB端文本标注方法，其特征在于，BIO词汇模型分为文本分类类型、NER类型以及文本相似度类型。

3.根据权利要求1所述的WEB端文本标注方法，其特征在于，步骤S2包括：对WEB端文本数据进行预先BIO标注处理。

4.根据权利要求3所述的WEB端文本标注方法，其特征在于，步骤S2还包括：对WEB端文本数据进行新增BIO标注处理。

5.一种基于BIO的WEB端文本标注...

【专利技术属性】
技术研发人员：刘绍光，王忠军，李寿荣，赵敏全，胡定波，陈旭文，刘志钦，
申请(专利权)人：南方电网深圳数字电网研究院有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人