分词训练数据的构造方法和装置制造方法及图纸

技术编号:11003461 阅读:105 留言:0更新日期:2015-02-05 03:40
本发明专利技术实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明专利技术实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。

【技术实现步骤摘要】
分词训练数据的构造方法和装置
本专利技术实施例涉及自然语言处理
,尤其涉及一种分词训练数据的构造方法和装置。
技术介绍
大部分的分词技术都需要基于后台的语料库。所以语料库中语料的标注质量决定着最终的分词结果的质量。目前,大部分的语料库中的语料数据的标注都是依靠人工完成的。对语料数据的人工标注对标注人员的业务素质要求较高,而且人工标注过程费时费力,造成对语料数据的分词效率低下。 有一种提高语料数据的分词效率的方案,就是以网页上的锚文本作为参考,对语料数据进行分词。比如,某网页上出现了文本“约翰.维恩是19世纪英国的哲学家和数学家”,其中“约翰.维恩”、“英国”、“哲学家”和“数学家”是锚文本。则应当以上述锚文本中出现的词作为分词后的词语对上述文本进行分词。但是,并不是所有语料数据都能够在互联网上找到内部含有锚文本数据的网页内容,所以这种方案的数据源非常有限。因此,如果完全依照这种方式获取分词训练数据,则得到的分词训练数据会有明显的数据稀疏问题。
技术实现思路
有鉴于此,本专利技术实施例提出一种分词训练数据的构造方法和装置,以丰富分词训练数据的数据源。 第一方面,本专利技术实施例提供了一种分词训练数据的构造方法,所述方法包括: 获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题; 将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串; 根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。 第二方面,本专利技术实施例提供了一种分词训练数据的构造装置,所述装置包括: 数据获取模块,用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题; 数据比对模块,用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串; 分词模块,用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。 本专利技术实施例提供的分词训练数据的构造方法和装置,通过获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。 【附图说明】 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显: 图1是本专利技术第一实施例提供的分词训练数据的构造方法的流程图; 图2是本专利技术第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图; 图3是本专利技术第二实施例提供的分词训练数据的构造方法的流程图; 图4是本专利技术第二实施例提供的分词训练数据的构造方法中公共字符串获取的流程图; 图5是本专利技术第三实施例提供的分词训练数据的构造方法的流程图; 图6是本专利技术第三实施例提供的分词训练数据的构造方法中公共字符串获取的流程图; 图7是本专利技术第四实施例提供的分词训练数据的构造装置的结构图。 【具体实施方式】 下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。 图1及图2示出了本专利技术的第一实施例。 图1是本专利技术第一实施例提供的分词训练数据的构造方法的流程图。参见图1,所述分词训练数据的构造方法包括: 3110,获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题。 由于对没有分词标注的语料数据可能会存在不同的理解,造成对分词训练数据的分词标注结果不准确,进行影响分词模型的准确性。比如,对文本“物理学起来很难”的分词标注可以是“物理|学起来|很难”,也可以是“物理学|起来|很难”。显然,如果采用第二种分词方案,则利用这样的分词训练数据训练出的分词模型将是不可靠的。 本专利技术实施例通过对用户使用搜索引擎的日志数据的分析来获取分词训练数据。一般来讲,用户在使用搜索引擎时,用户输入的查询语句会与用户所点击的网页链接的网页标题具有相同的语义。所以可以将用户的一次查询会话中的查询语句与用户所点击的网页链接的网页比较进行比较,将比较的结果作为获取分词训练数据的参考。 因此,可以获取用户在一次查询会话中的查询语句与该查询语句的查询结果中所点击网页链接的网页标题。 3120,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串。 由于所述查询语句与所述用户所点击的网页链接的网页标题具有相同的语义,因此所述查询语句与所述用户所点击的网页链接的网页标题通常具有相同的公共字符串。 图2是本专利技术第一实施例提供的用户输入查询语句以后的搜索结果页面的示意图。参见图2,所述查询语句与所述搜索结果页面上的网页链接的网页标题都具有相同的字符串。 正因如此,可以通过提取所述查询语句与所述网页标题之间的公共字符串来对所述查询语句进行分词,以获取所述分词训练数据。 所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。首先,所述公共字符串是所述查询语句与所述网页标题所共有的子字符串;其次,并不存在这样的一个字符串,它同时是所述查询语句与所述网页标题的子字符串,而且所述公共字符串有时它的子字符串。 S130,根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。 获取到所述公共字符串以后,根据获取到的公共字符串对所述查询语句与所述网页标题进行分词。优选的,以所述公共字符串的起始位置和终止位置为分词位置,对所述查询语句以及所述网页标题进行分词。 对所述查询语句以及所述网页标题进行分词以后,就得到了所述分词训练数据。所述分词训练数据可以用于训练分词模型。而训练得到的分词模型可以用于机器翻译系统的分词处理,或者其他自然语言处理系统的分词处理。 本实施例通过获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题,将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串,以及根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据,丰富了分词训练数据的数据源,克服了分词训练数据的数据稀疏问题。 图3示出了本专利技术的第二实施例。 图3是本专利技术第二实施例提供的分词训练数据的构造方法的流程图。所述分词训练数据的构造方法以本专利技术的第一实施例为基础,进一步的,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;将匹配得到的长度最本文档来自技高网...
分词训练数据的构造方法和装置

【技术保护点】
一种分词训练数据的构造方法,其特征在于,包括:获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。

【技术特征摘要】
1.一种分词训练数据的构造方法,其特征在于,包括: 获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题; 将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串; 根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。2.根据权利要求1所述的方法,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。3.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括: 获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题; 将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括: 使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配; 将匹配得到的长度最长的连续的子字符串作为所述公共字符串。4.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括: 获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题; 将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括: 使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配; 分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串; 将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。5.根据权利要求3或4所述的方法,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool 算法或者 Boyer ...

【专利技术属性】
技术研发人员:石磊张开旭
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1