字词检索方法和装置制造方法及图纸

技术编号:12730745 阅读:57 留言:0更新日期:2016-01-20 14:36
本发明专利技术提出一种字词检索方法和装置,该字词检索方法包括:接收用户输入的查询词,并将所述查询词转换为格式化文本请求;对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果;根据所述标注结果进行数据检索,得到检索结果,以将检索结果展示给用户。该方法能够基于自然语言理解满足用户不同的字词检索需求,提升用户体验。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种字词检索方法和装置
技术介绍
人们在传统方式下使用纸质的词典进行字词检索,随着信息化的发展,人们逐步使用电子词典进行字词检索。现有技术中,电子词典只能回答字词实体请求,比如,用户在搜索中输入“璇”,现有的电子字典能够返回相关结果。但是,用户查询目的不一样,可能是为了了解这个字解释、或者组词、或者五笔等信息。当用户输入的是“璇的组词”,“璇的五笔”,“璇的同音字”后,现有电子字典无法回答。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种字词检索方法,该方法可以基于自然语言理解满足用户不同的字词检索需求,提升用户体验。本专利技术的另一个目的在于提出一种字词检索装置。为达到上述目的,本专利技术第一方面实施例提出的字词检索方法,包括:接收用户输入的查询词,并将所述查询词转换为格式化文本请求;对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果;根据所述标注结果进行数据检索,得到检索结果,以将检索结果展示给用户。本专利技术第一方面实施例提出的字词检索方法,通过对查询词进行自然语言理解,可以解析出用户不同的需求,从而根据用户不同的需求检索出相应的检索结果,满足用户不同的字词检索需求,提升用户体验。为达到上述目的,本专利技术第二方面实施例提出的字词检索装置,包括:交互界面模块,用于接收用户输入的查询词,并将所述查询词转换为格式化文本请求;自然语言理解模块,用于对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果;数据检索模块,用于根据所述标注结果进行数据检索,得到检索结果,以将检索结果展示给用户。本专利技术第二方面实施例提出的字词检索装置,通过对查询词进行自然语言理解,可以解析出用户不同的需求,从而根据用户不同的需求检索出相应的检索结果,满足用户不同的字词检索需求,提升用户体验。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的字词检索方法的流程示意图;图2是本专利技术实施例中自然语言理解的流程示意图;图3是本专利技术另一实施例提出的字词检索方法的流程示意图;图4是本专利技术实施例中语音输入的查询词及检索结果的示意图;图5是本专利技术另一实施例提出的字词检索装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的字词检索方法的流程示意图,该方法包括:S11:接收用户输入的查询词,并将所述查询词转换为格式化文本请求。其中,用户可以以自然语言进行查询词的输入。查询词的形式可以是:文本形式、语音形式,或者,图像形式。当查询词是语音形式或图像形式时,可以先进行转换,以获取文本形式的查询词。例如,当查询词是语音形式时,进行语音识别,得到文本形式的查询词,或者,当查询词是图像形式时,进行图像识别,得到文本形式的查询词。在获取到文本形式的查询词后,可以将其转换为格式化文本请求,以方便后续处理。根据实际需要的不同,可以设置不同的规则进行格式化以得到格式化文本请求。例如,格式化时采用的规则是去除文本形式的查询词中的冗余信息,冗余信息例如包括:“为什么”,“请问”,“标点符号”这些字符,另外,在格式化时例如还可以进行繁简体字转化等。S12:对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果。参见图2,所述对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果,包括:S21:对格式化文本请求进行切词,得到格式化文本请求中的分词。例如,用户输入的查询词是“璇的五笔”,则在上述的格式化转换时,例如可以去掉其中的“的”,得到格式化文本请求“璇五笔”,对该格式化文本请求进行分词后可以得到“璇”、“五笔”这两个分词。又例如,用户输入的查询词是“一丘之貉的最后一个字的五笔”,则类似上述的格式化和分词处理后,可以得到“一丘之貉”、“最后一个字”、“五笔”这三个分词。S22:根据预先建立的标注词典,对分词进行标注,得到分词对应的标注结果。例如,标注结果包括:分词被识别为实体信息或属性信息,属性信息例如包括:实体间关系信息以及其余的属性信息,进一步的,当分词被识别为实体信息时还可以细分为实体类型是字、词、成语等。另外,当分词被识别为实体信息时,标注结果中还可以包含分词对应的身份标识(ID)信息,或者,当分词被识别为属性信息时,标注结果中还可以包含属性信息的名称。假设一个分词是A,实体信息例如A是一个字、词或成语等;实体间关系信息是指字词实体之间的语义关系,如A是同义词、反义词等,也可以称为边;其余的属性信息例如A是:拼音、五笔、笔画信息等。在标注时,例如可以预先建立不同类别的词典,如实体词典、属性词典等,对应每个分词,通过在不同词典内查询可以确定分词被识别为实体信息或属性信息,例如,对应分词“璇”,经过查询,其在实体词典中查询到,则确定“璇”被识别为实体信息。当然,可以理解的是,实体词典可以进一步分为字的词典、词组的词典、成语的词典等,从而可以实现更细的标注。另外,为了更好地唯一表述字词实体以及实体间的语义关系,词典内实体有唯一的身份标识(ID)信息,因此还可以在标注结果中标注ID信息。例如,对应分词“璇”,可以在字的词典中查询到,并且如果“璇”在字的词典中的ID信息是“id_123”,那么可以确定“璇”被识别为实体信息,且实体类型是字,且ID信息是id_123。其余分词也可以类似处理。因此,经过标注词典的标注后,可以获取分词与对应的标识结果。例如,对应“璇的五笔”这一查询词,得到的标注结果包括:[(璇、id_123、word),(五笔、wubi、attribute)]。其中,“璇”和“五笔”是分词,以及,“璇”被识别为实体信息,且实体类型是“字(word)”,ID信息是id_123;“五笔”被识别是属性信息(att本文档来自技高网...

【技术保护点】
一种字词检索方法,其特征在于,包括:接收用户输入的查询词,并将所述查询词转换为格式化文本请求;对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果;根据所述标注结果进行数据检索,得到检索结果,以将检索结果展示给用户。

【技术特征摘要】
1.一种字词检索方法,其特征在于,包括:
接收用户输入的查询词,并将所述查询词转换为格式化文本请求;
对所述格式化文本请求进行自然语言理解,获取对所述格式化文本请求的标注结果;
根据所述标注结果进行数据检索,得到检索结果,以将检索结果展示给用户。
2.根据权利要求1所述的方法,其特征在于,所述查询词包括:文本形式的查询词,
或者,语音形式的查询词,或者,图像形式的查询词。
3.根据权利要求2所述的方法,其特征在于,所述将所述查询词转换为格式化文本请
求之前,所述方法还包括:
当所述查询词是语音形式的查询词时,对语音形式的查询词进行语音识别,识别为文
本形式的查询词;或者,
当所述查询词是图像形式的查询词时,对图像形式的查询词进行图像识别,识别为文
本形式的查询词。
4.根据权利要求1所述的方法,其特征在于,所述对所述格式化文本请求进行自然语
言理解,获取对所述格式化文本请求的标注结果,包括:
对格式化文本请求进行切词,得到格式化文本请求中的分词;
根据预先建立的标注词典,对分词进行标注,得到分词对应的标注结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述标注结果进行数据检索,
得到检索结果,包括:
如果所述标注结果中存在实体间关系信息,在预先建立的关系检索引擎中,根据实体
信息和实体间关系信息检索到要检索的实体信息,以及,在预先建立的实体检索数据库中,
根据检索到的要检索的实体信息和标注结果中的属性信息,获取对应的检索结果;或者,
如果所述标注结果中不存在实体间关系信息,在预先建立的实体检索数据库中,根据
标注结果中的实体信息和/或属性信息,获取对应的检索结果。
6.根据权利要求1-5任一项所述...

【专利技术属性】
技术研发人员:刘联东杨天行
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1