System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 分词方法、搜索方法及相关产品技术_技高网

分词方法、搜索方法及相关产品技术

技术编号:40748293 阅读:2 留言:0更新日期:2024-03-25 20:05
本申请公开了一种分词方法、搜索方法及相关产品。该方法包括:基于预定词典,为目标文本生成参考词序列,所述参考词序列中的参考词既属于所述目标文本又属于所述预定词典;基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,所述候选标签集合中的标签用于指示所述字符在所述目标文本的分词结果中的位置;利用分词模型从所述候选标签集合中确定所述字符的目标标签。

【技术实现步骤摘要】

本申请涉及计算机,尤其涉及一种分词方法、搜索方法及相关产品


技术介绍

1、在对文本进行分词时,可以通过确定文本中各个字符的标签,其中,字符的标签用于指示字符在文本的分词结果中的位置。然后根据各个字符的标签对文本进行分词,得到分词结果。因此,如何提高字符的标签的准确度具有非常重要的意义。


技术实现思路

1、本申请提供一种分词方法、搜索方法及相关产品,以提高字符的标签的准确度。

2、第一方面,提供了一种分词方法,所述方法包括:

3、基于预定词典,为目标文本生成参考词序列,所述参考词序列中的参考词既属于所述目标文本又属于所述预定词典;

4、基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,所述候选标签集合中的标签用于指示所述字符在所述目标文本的分词结果中的位置;

5、利用分词模型从所述候选标签集合中确定所述字符的目标标签。

6、在该方面中,由于预定词典中的词语可视为正确词语,分词装置基于预定词典为目标文本生成参考词序列,可提高参考词序列中的参考词的准确度。于是,基于目标文本中的字符在参考词中的位置,确定字符的候选标签集合,可提高候选标签集合中的标签的准确度,进而利用分词模型从候选标签集合中确定字符的目标标签,可提高目标标签的准确度。

7、结合本申请任一实施方式,所述基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,包括:

8、基于所述字符在各个包括所述字符的所述参考词中的位置,确定所述候选标签集合。

9、结合本申请任一实施方式,所述候选标签集合包括以下至少一个标签:单字词、位于词的起始位置、位于词的中间、位于词的结束位置。

10、结合本申请任一实施方式,所述利用分词模型从所述候选标签集合中确定所述字符的目标标签,包括:

11、利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签。

12、结合本申请任一实施方式,所述利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签,包括:

13、利用所述分词模型确定所述候选标签集合中各个标签的概率;

14、基于分词算法和所述候选标签集合中各个标签的概率,确定所述候选标签集合中概率最大的标签为所述目标标签。

15、结合本申请任一实施方式,所述分词算法包括:维特比算法或者前向最大匹配算法或者反向最大匹配算法。

16、结合本申请任一实施方式,在确定所述字符的目标标签后,所述方法还包括:

17、基于所述目标标签,对所述目标文本进行分词,得到分词结果序列。

18、在该种实施方式中,分词装置在基于前文所提供的技术方案提高目标文本中的字符的目标标签的准确度的情况下,基于目标文本中的字符的目标标签,对目标文本进行分词,得到分词结果序列,可提高分词结果序列的准确度。

19、结合本申请任一实施方式,所述分词模型包括:条件随机场或者马儿可夫模型或者隐马儿可夫模型。

20、第二方面,提供了一种搜索方法,所述方法包括:

21、接收来自客户端的搜索请求,所述搜索请求包括检索文本;

22、根据前文所述的方法,对检索文本进行分词,得到检索词序列;

23、从待检索数据库中确定与所述检索词序列中的检索词匹配的待检索数据,作为所述检索文本的检索结果;

24、响应于所述搜索请求,将所述检索结果返回至所述客户端。

25、在该方面中,搜索装置在接收到来自客户端的包括检索文本的检索请求后,基于前文提供的分词方法,对检索文本进行分词,得到检索词序列,可提高检索词序列的准确度。由此以检索词序列中的检索词为依据,从待检索数据库中确定检索文本的检索结果,可提高检索结果的准确度,换句话说,可提高返回至客户端的检索结果的准确度。

26、第三方面,提供了一种分词装置,其特征在于,所述搜索装置包括:

27、生成单元,用于基于预定词典,为目标文本生成参考词序列,所述参考词序列中的参考词既属于所述目标文本又属于所述预定词典;

28、第一确定单元,用于基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,所述候选标签集合中的标签用于指示所述字符在所述目标文本的分词结果中的位置;

29、第二确定单元,用于利用分词模型从所述候选标签集合中确定所述字符的目标标签。

30、结合本申请任一实施方式,所述第一确定单元,用于基于所述字符在各个包括所述字符的所述参考词中的位置,确定所述候选标签集合。

31、结合本申请任一实施方式,所述候选标签集合包括以下至少一个标签:单字词、位于词的起始位置、位于词的中间、位于词的结束位置。

32、结合本申请任一实施方式,所述第二确定单元,用于利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签。

33、结合本申请任一实施方式,所述第二确定单元,用于:

34、利用所述分词模型确定所述候选标签集合中各个标签的概率;

35、基于分词算法和所述候选标签集合中各个标签的概率,确定所述候选标签集合中概率最大的标签为所述目标标签。

36、结合本申请任一实施方式,所述分词算法包括:维特比算法或者前向最大匹配算法或者反向最大匹配算法。

37、结合本申请任一实施方式,所述分词装置还包括:第二分词单元,用于基于所述目标标签,对所述目标文本进行分词,得到分词结果序列。

38、结合本申请任一实施方式,所述分词模型包括:条件随机场或者马儿可夫模型或者隐马儿可夫模型。

39、第四方面,提供了一种搜索装置,其特征在于,所述搜索装置包括:

40、接收单元,用于接收来自客户端的搜索请求,所述搜索请求包括检索文本;

41、第一分词单元,用于根据前文所述的分词方法,对检索文本进行分词,得到检索词序列;

42、检索单元,用于从待检索数据库中确定与所述检索词序列中的检索词匹配的待检索数据,作为所述检索文本的检索结果;

43、发送单元,用于响应于所述搜索请求,将所述检索结果返回至所述客户端。

44、第五方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

45、第六方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。

46、第七方面,提供了一种计算机可读存储介本文档来自技高网...

【技术保护点】

1.一种分词方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述候选标签集合包括以下至少一个标签:单字词、位于词的起始位置、位于词的中间、位于词的结束位置。

4.根据权利要求1或2所述的方法,其特征在于,所述利用分词模型从所述候选标签集合中确定所述字符的目标标签,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签,包括:

6.根据权利要求5所述的方法,其特征在于,所述分词算法包括:维特比算法或者前向最大匹配算法或者反向最大匹配算法。

7.根据权利要求1或2所述的方法,其特征在于,在确定所述字符的目标标签后,所述方法还包括:

8.根据权利要求1或2所述的方法,其特征在于,所述分词模型包括:条件随机场或者马儿可夫模型或者隐马儿可夫模型。

9.一种搜索方法,其特征在于,所述方法包括:

10.一种分词装置,其特征在于,所述搜索装置包括:

11.一种搜索装置,其特征在于,所述搜索装置包括:

12.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至8中任意一项所述的方法。

13.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求9所述的方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求1至8中任意一项所述的方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行权利要求9所述的方法。

...

【技术特征摘要】

1.一种分词方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本中的字符在所述参考词中的位置,确定所述字符的候选标签集合,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述候选标签集合包括以下至少一个标签:单字词、位于词的起始位置、位于词的中间、位于词的结束位置。

4.根据权利要求1或2所述的方法,其特征在于,所述利用分词模型从所述候选标签集合中确定所述字符的目标标签,包括:

5.根据权利要求4所述的方法,其特征在于,所述利用所述分词模型确定所述候选标签集合中概率最大的标签为所述目标标签,包括:

6.根据权利要求5所述的方法,其特征在于,所述分词算法包括:维特比算法或者前向最大匹配算法或者反向最大匹配算法。

7.根据权利要求1或2所述的方法,其特征在于,在确定所述字符的目标标签后,所述方法还包括:

8.根据权利要求1或2所述的方法,其特征在于,所述分词模型包括:条件随机场或者马儿可夫模型或者隐马儿可夫模型。

9.一种搜索方法,其特征在于,所...

【专利技术属性】
技术研发人员:杨涵李从风潘博远王鹤达
申请(专利权)人:小红书科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1