一种实体标注方法和装置、计算机可读存储介质制造方法及图纸

技术编号:19691945 阅读:47 留言:0更新日期:2018-12-08 11:12
本申请公开了一种实体标注方法和装置、计算机可读存储介质,所述方法包括:按照预设的规则,对待标注的文本进行分段;监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。本申请通过按照预设的规则对待标注的文本进行分段,并通过预定义的选词操作选中已分好的分段,解决了原本的实体标注需要很多的鼠标选中并移动的标签内容选择的问题,大大提高了选中标签文本时的效率。

【技术实现步骤摘要】
一种实体标注方法和装置、计算机可读存储介质
本专利技术涉及自然语言处理(NaturalLanguageProcessing,NLP)
,尤其涉及一种实体标注方法和装置、计算机可读存储介质。
技术介绍
随着大数据以及人工智能(ArtificialIntelligence,AI)的普及,企业级应用中将越来越多使用自然语言处理相关的技术。当前,虽然很多大公司提供词性识别、实体识别、关系识别等模型的超文本传输协议(HyperTextTransferProtocol,HTTP)服务,但这些服务背后的自然语言处理模型绝大多数都是由互联网数据训练得到的。而互联网中的文字内容来源广泛:既有来自于专业媒体的内容,也有网民个人产生的内容。互联网文本跟企业内部文本内容相比,用词与写作风格存在较大差异。因此,自然语言处理技术想要在企业级应用中达到较好的效果,一般需要将企业内文本做标注之后,重新训练成适合于企业自身需要的自然语言处理模型。对于NLP中最重要任务:实体提取,也需要使用企业中的文本数据进行标注,然后训练模型。实体标注一般是指人工对文本数据进行标记的过程,例如,在“北京是中国的首都”这句话中,本文档来自技高网...

【技术保护点】
1.一种实体标注方法,其特征在于,包括:按照预设的规则,对待标注的文本进行分段;监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。

【技术特征摘要】
1.一种实体标注方法,其特征在于,包括:按照预设的规则,对待标注的文本进行分段;监听并接收用户的鼠标操作,如果接收的鼠标操作为预定义的选词操作,则检测当前鼠标所在文本的偏移位置是否在已分好的一个分段内;如果当前鼠标所在文本的偏移位置在已分好的一个分段内,则选中该分段并将该分段显示为被选中的状态。2.根据权利要求1所述的方法,其特征在于,所述预设的规则包括以下至少之一:规则1:数字与以下三者至少之一:年、月、日组成的内容,为一个所述分段;规则2:长度小于或等于预设字符串长度的括号中的内容,为一个所述分段;规则3:长度小于或等于预设字符串长度的引号内的内容,为一个所述分段;规则4:预设的词典中的词,为一个所述分段;规则5:通过预设的分词器分出的词,为一个所述分段。3.根据权利要求2所述的方法,其特征在于,所述规则i的优先级高于或等于规则i+1的优先级,所述各规则不能切分比自身优先级高的规则切分出的所述分段,其中,i为1至4之间的自然数。4.根据权利要求1所述的方法,其特征在于,所述预定义的选词操作为鼠标左键双击、鼠标左键单击或者鼠标右键单击。5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至4中任一项所述的实体标注方法的步骤。6.一种实体标注装置,其特征在于,包括处理器...

【专利技术属性】
技术研发人员:徐安华
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1