分词方法及电子设备技术

技术编号:36920800 阅读:19 留言:0更新日期:2023-03-22 18:44
本申请提出一种分词方法及电子设备,该分词方法包括接收待分词字符串,对所述待分词字符串进行分词,得到候选分词组合,各个候选分词组合中的搜索词不同,计算各个候选分词组合的共现概率,其中,所述共现概率包括候选分词组合中搜索词与本地文档集的共现概率,根据所述候选分词组合的共现概率确定最终分词组合,由此选出的最终分词组合与本地文档集更相关且有迹可循,具备解释性,减少歧义。减少歧义。减少歧义。

【技术实现步骤摘要】
分词方法及电子设备


[0001]本申请实施例涉及大数据检索和自然语言处理领域,尤其涉及一种分词方法及电子 设备。

技术介绍

[0002]随着计算机技术的不断发展,分词技术已经广泛应用于搜索引擎,机器翻译,语音合成, 自动摘要等领域。所谓分词,就是将一串书面语言分成一个一个单独的单词的过程。以中文 分词技术(Chinese Word Segmentation)为例,分词技术的目标就是将一句话切分为一个一个 单独的中文词语。搜索引擎(search engine)是一种信息检索系统,旨在协助搜索存储在计算 机系统中的信息。比如,百度、谷歌是一些具有代表性的搜索引擎。
[0003]分词技术作为搜索引擎中的一项重要的基础技术,分词技术的好坏将直接影响搜索质量 的好坏。如何优化分词是亟待解决的问题。

技术实现思路

[0004]本申请实施例公开了一种分词方法及电子设备,通过计算各个候选分词组合的共现概 率,以得知候选分词组合中搜索词与本地文档集的共现概率,进而可以根据共现概率确定最 终分词组合,由此选出的最终分词组合与本地文档集更相关且有迹可循,具备解释性,减少 歧义。
[0005]第一方面,本申请实施例提供一种分词方法,所述方法包括:接收待分词字符串;对所 述待分词字符串进行分词,得到候选分词组合,各个候选分词组合中的搜索词不同;计算各 个候选分词组合的共现概率,其中,所述共现概率包括所述候选分词组合中搜索词在本地文 档集中共同出现在同一文档的概率;根据所述候选分词组合的共现概率确定最终分词组合。
[0006]在本申请实施例中,预先计算各个候选分词组合中搜索词在本地文档集中共同出现的概 率,根据候选分词组合的共现概率确定最终分词组合,通过共现概率可以辅助识别用户的查 询意图。且由此选出的最终分词组合与本地文档集更相关且有迹可循,具备解释性,减少歧 义。
[0007]在第一方面的一种可能实现方式中,所述方法还包括:根据所述最终分词组合的搜索词 在所述本地文档集中进行搜索,得到与所述搜索词相关的文档;输出所述文档。在根据分词 得到的搜索词进行检索之前,先对分词得到的各个候选分词组合进行预查询,即计算各个候 选分词组合中搜索词在本地文档集中共同出现的概率,由此确定的最终分词组合能保证文档 召回率与召回质量。
[0008]在第一方面的一种可能实现方式中,所述计算各个候选分词组合的共现概率包括:构建 离线索引,其中所述离线索引用于记录本地文档集中的搜索词在所述本地文档集中分布情况; 针对每一所述候选分词组合,根据所述离线索引计算所述候选分词组合的共现概率。
[0009]在第一方面的一种可能实现方式中,所述根据所述离线索引计算所述候选分词组合的共 现概率包括:根据所述离线索引确定所述候选分词组合中的搜索词同时出现在同一文档的第 一文档;计算所述第一文档的数量与所述本地文档集的所有文档数量的比值。
[0010]在第一方面的一种可能实现方式中,所述构建离线索引包括:获取所述本地文档集中每 一文档所包括的搜索词;建立所述搜索词与所述文档的映射关系;根据所述搜索词与所述文 档的映射关系构建离线索引。
[0011]在第一方面的一种可能实现方式中,所述离线索引包括m行n列的二维矩阵,所述m、 n均为正整数,其中所述二维矩阵的每一行用于代表一所述搜索词,所述二维矩阵的每一列 用于代表所述本地文档集中一所述文档,所述二维矩阵的一行与一列相交处的元素用一比特 存储0或1,以用0或1中的一者表示所述搜索词在所述文档中出现,用另一者表示所述搜 索词未在所述文档中出现。
[0012]在第一方面的一种可能实现方式中,所述离线索引包括K个数组;每一所述数组对应一 所述搜索词,所述数组中的元素用于表示第一文档的文档编号,其中所述第一文档为所述本 地文档集中出现过所述数组对应的搜索词的文档。
[0013]在第一方面的一种可能实现方式中,所述元素存储1表示所述搜索词在所述文档中出现; 则所述根据所述离线索引确定所述候选分词组合中的搜索词同时出现在同一文档的第一文档 包括:在所述二维矩阵中确定第一列,其中所述第一列与所述候选分词组合中的各个搜索词 对应的行相交处的元素均为1;将所述第一列代表的文档作为第一文档。
[0014]在第一方面的一种可能实现方式中,所述根据所述离线索引确定所述候选分词组合中的 搜索词同时出现在同一文档的第一文档包括:获取所述候选分词组合中各个搜索词对应的数 组;将各个所述数组中均相同的文档编号所对应的文档作为第一文档。
[0015]在第一方面的一种可能实现方式中,所述根据所述候选分词组合的关联度确定最终分词 组合包括:将所述候选分词组合中共现概率高的候选分词组合作为最终分词组合。
[0016]在第一方面的一种可能实现方式中,所述根据所述候选分词组合的关联度确定最终分词 组合包括:在各个候选分词组合的共现概率的差值在预设差值范围内时,比较所述各个候选 分词组合中搜索词的粒度;将粒度大的候选分词组合作为最终分词组合。
[0017]第二方面,本申请实施例提供一种电子设备,包括:至少一个存储器,用于存储程序; 和至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时, 所述处理器用于执行如上任一所述的方法。
[0018]第三方面,本申请实施例提供一种存储介质,所述存储介质中存储有指令,当所述指令 在终端上运行时,使得第一终端执行如上任一所述的方法。
[0019]第四方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程 序代码,当所述计算机程序代码被一个计算机执行的时候,所述计算机程序代码可以使得所 述计算机执行如上任一所述的方法。
[0020]上述其他方面对应的有益效果,可以参见关于方法方面的有益效果的描述,此处不 予赘述。
附图说明
[0021]图1为本申请实施例提供的搜索系统结构示意图。
[0022]图2为本申请实施例提供的分词方法的流程图。
[0023]图3为本申请实施例提供的一种离线索引构建方法流程示意图。
[0024]图4为本申请实施例提供的一种获取搜索词与文档映射关联的示意图。
[0025]图5为本申请实施例提供的一种离线索引结构示意图。
[0026]图6a为本申请实施例提供的另一种离线索引结构示意图。
[0027]图6b为本申请实施例提供的另一种离线索引结构示意图。
[0028]图7为本申请实施例提供的一种基于位置偏移实现离线索引压缩存储方法的流程示意图。
[0029]图8为本申请实施例提供的一种基于位置偏移实现索引压缩存储的示意图。
[0030]图9为本申请实施例提供的一种基于分区存储实现共现概率计算的示意图。
[0031]图10为本申请实施例提供的一种基于位置偏移实现共现概率计算的示意图。
具体实施方式
[0032]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,所述方法包括:接收待分词字符串;对所述待分词字符串进行分词,得到候选分词组合,各个候选分词组合中的搜索词不同;计算各个候选分词组合的共现概率;根据所述候选分词组合的共现概率确定最终分词组合。2.根据权利要求1所述的分词方法,其特征在于,所述方法还包括:根据所述最终分词组合的搜索词在本地文档集中进行搜索,得到与所述搜索词相关的文档;输出所述文档。3.根据权利要求1或2所述的分词方法,其特征在于,所述计算各个候选分词组合的共现概率包括:构建离线索引,其中所述离线索引用于记录本地文档集中的搜索词在所述本地文档集中分布情况;针对每一所述候选分词组合,根据所述离线索引计算所述候选分词组合的共现概率。4.根据权利要求3所述的分词方法,其特征在于,所述根据所述离线索引计算所述候选分词组合的共现概率包括:根据所述离线索引确定所述候选分词组合中的搜索词同时出现在同一文档的第一文档;计算所述第一文档的数量与所述本地文档集的所有文档数量的比值。5.根据权利要求4所述的分词方法,其特征在于,所述构建离线索引包括:获取所述本地文档集中每一文档所包括的搜索词;建立所述搜索词与所述文档的映射关系;根据所述搜索词与所述文档的映射关系构建离线索引。6.根据权利要求4或5所述的分词方法,其特征在于,所述离线索引包括m行n列的二维矩阵,所述m、n均为正整数,其中所述二维矩阵的每一行用于代表一所述搜索词,所述二维矩阵的每一列用于代表所述本地文档集中一所述文档,所述二维矩阵的一行与一列相交处的元素用一比特存储0或1,以用0或1中的一者表示所述搜索词在所述文档中出现,用另一者表示所述搜索词未在所述文档中出现。7.根据权利要求4或5所述的分词方法,其特征在于,所述离线索引包括K个数组;每一所述数组对应一所述搜索词,所述数组中的元素用于表示第一文档的文档编号,其中所述第一文档为所述本地文档集中出现过所述数...

【专利技术属性】
技术研发人员:姜松夏命榛
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1