分词训练数据的构造方法和装置制造方法及图纸

技术编号：11003461 阅读：105 留言：0更新日期：2015-02-05 03:40

本发明专利技术实施例公开了一种分词训练数据的构造方法和装置。所述分词训练数据的构造方法包括：获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词。本发明专利技术实施例提供的分词训练数据的构造方法和装置丰富了分词训练数据的数据源，克服了分词训练数据的数据稀疏问题。

全部详细技术资料下载

【技术实现步骤摘要】
分词训练数据的构造方法和装置
本专利技术实施例涉及自然语言处理
，尤其涉及一种分词训练数据的构造方法和装置。
技术介绍
大部分的分词技术都需要基于后台的语料库。所以语料库中语料的标注质量决定着最终的分词结果的质量。目前，大部分的语料库中的语料数据的标注都是依靠人工完成的。对语料数据的人工标注对标注人员的业务素质要求较高,而且人工标注过程费时费力，造成对语料数据的分词效率低下。有一种提高语料数据的分词效率的方案，就是以网页上的锚文本作为参考，对语料数据进行分词。比如，某网页上出现了文本“约翰.维恩是19世纪英国的哲学家和数学家”，其中“约翰.维恩”、“英国”、“哲学家”和“数学家”是锚文本。则应当以上述锚文本中出现的词作为分词后的词语对上述文本进行分词。但是，并不是所有语料数据都能够在互联网上找到内部含有锚文本数据的网页内容，所以这种方案的数据源非常有限。因此，如果完全依照这种方式获取分词训练数据，则得到的分词训练数据会有明显的数据稀疏问题。
技术实现思路
有鉴于此，本专利技术实施例提出一种分词训练数据的构造方法和装置，以丰富分词训练数据的数据源。第一方面，本专利技术实施例提供了一种分词训练数据的构造方法，所述方法包括: 获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。第二方面，本专...
分词训练数据的构造方法和装置

【技术保护点】
一种分词训练数据的构造方法，其特征在于，包括：获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。

【技术特征摘要】
1.一种分词训练数据的构造方法，其特征在于，包括: 获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串；根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词，得到分词训练数据。2.根据权利要求1所述的方法，其特征在于，所述公共字符串为所述查询语句与所述网页标题所共有的，并且长度最长的连续的子字符串。3.根据权利要求2所述的方法，其特征在于，获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括: 获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括: 使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配；将匹配得到的长度最长的连续的子字符串作为所述公共字符串。4.根据权利要求2所述的方法，其特征在于，获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括: 获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题；将所述查询语句与所述网页标题进行比对，以获取所述查询语句与所述网页标题之间的公共字符串包括: 使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配；分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串，并将所述长度最长的连续的子字符串作为备选公共字符串；将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。5.根据权利要求3或4所述的方法，其特征在于，所述字符串匹配算法包括:KMP算法、Horspool 算法或者 Boyer ...

【专利技术属性】
技术研发人员：石磊，张开旭，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人