一种生成分词训练数据的方法和服务器技术

技术编号:20243005 阅读:27 留言:0更新日期:2019-01-29 23:31
本申请提供了一种生成分词训练数据的方法和服务器,其中,该方法包括:通过对待处理文本进行分词处理,确定待处理文本中存在切分歧义的字段;对所述存在切分歧义的字段中的每个字标注多个切分位置标识;将标注切分位置标识后的待处理文本作为分词模型训练数据。通过本申请的方案解决了现有的对于存在切分歧义的字段也采用完全标注的方式而导致的需要人工进行标注的问题,因此,可以有效节省人力成本,达到了在保证训练数据有效性的情况下,高效生成分词训练数据的效果。

【技术实现步骤摘要】
一种生成分词训练数据的方法和服务器
本申请属于计算机
,尤其涉及一种生成分词训练数据的方法和服务器。
技术介绍
目前,为了实现分词,一般是采用训练得到分词模型的方式对待分词文本进行分词。为了实现对分词模型的训练,需要大量的分词训练数据。作为分词训练数据,就需要预先标注好正确的切分结果,例如:如果一个文本:太空一号篮球鞋,作为训练数据,那么就需要标注太空一号篮球鞋的正确切分方式,那么这个文本才能作为有效的训练数据。对于一些比较简单的文本,机器有时候是可以自动进行标注的,但是有时有些文本会存在歧义,例如:女生日礼物,在切分的时候,女是和生切分在一起形成女生,还是生和日礼物切分在一起,形成生日礼物,这个时候通过机器就很难进行标注。因此,对于这种存在切分歧义的文本,就只能采用人工标注的方式进行。在数据量特别大的时候,人工标注的成本很高。针对该问题,目前尚未提出有效的解决方案。
技术实现思路
本申请目的在于提供一种生成分词训练数据的方法和服务器,可以实现在保证训练数据有效性的情况下,无需人工标注即可生成分词训练数据的目的。本申请提供一种生成分词训练数据的方法和服务器是这样实现的:一种生成分词本文档来自技高网...

【技术保护点】
1.一种生成分词训练数据的方法,其特征在于,所述方法包括:通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段;对所述存在切分歧义的字段中的每个字标注多个切分位置标识;将标注切分位置标识后的待处理文本作为分词模型训练数据。

【技术特征摘要】
1.一种生成分词训练数据的方法,其特征在于,所述方法包括:通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段;对所述存在切分歧义的字段中的每个字标注多个切分位置标识;将标注切分位置标识后的待处理文本作为分词模型训练数据。2.根据权利要求1所述的方法,其特征在于,所述切分位置标识包括以下至少之一:开始标识符、结束标识符、中间标识符、单字标识符。3.根据权利要求2所述的方法,其特征在于,对所述存在切分歧义的字段中的每个字标注多个切分位置标识,包括:对存在切分歧义的字段的第一个字标注的切分位置标识为开始标识符、或,单字标识符;对存在切分歧义的字段的最后一个字标注的切分位置标识为结束标识符,或,单字标识符;对存在切分歧义的字段中除第一个字和最后一个字之外的字标注的切分位置标识为开始标识符、结束标识符、中间标识符,或,单字标识符。4.根据权利要求1所述的方法,其特征在于,在通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段之后,所述方法还包括;对不存在切分歧义的字段中的每个字标注对应的切分位置标识。5.根据权利要求1所述的方法,其特征在于,通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段,包括:通过基于词库的最大正向匹配方式,对所述待处理文本进行分词处理,以确定所述待处理文本中存在切分歧义的字段。6.根据权利要求1所述的方法,其特征在于,在对待处理文本进行分词处理之前,所述方法还包括:确定所述待处理文本中是否存在用户输入的分隔标识;在确定存在用户输入的分隔标识的情况下,对分隔标识前后的两个字符标注切分位置标识。7.根据权利要求6所述的方法,其特征在于,所述分隔标识包括以下至少之一:空格、下划线、中划线、逗号、分号。8.根据权利要求7所述的方法,其特征在于,对分隔标识前后的两个字符进行切分位置标识包括:对分隔标识后的第一个字符标注的切分位置标识为开始标识符、或,单字标识符;对分隔标识前的第一个字符标注的切分位标识为结束标识符,或,单字标识符。9.根据权利要求1所述的方法,其特征在于,所述待处理文本包括:电商平台的搜索请求。10.一种生成分词训练数据的方法,其特征在于,所述方法包括:基于用户查询词库和产品词库中的一个或多个,对存在切分歧义的字段中的每个字标注多个切...

【专利技术属性】
技术研发人员:徐光伟李林琳谢朋峻马春平郎君司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1