当前位置: 首页 > 专利查询>山西大学专利>正文

一种自然语言搜索的方法和装置制造方法及图纸

技术编号:2915701 阅读:226 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种自然语言的搜索方法和装置,该方法为:构建汉语框架知识库CFN和专业领域知识本体库,然后利用汉语框架知识库对自然语言搜索输入的查询语句进行汉语框架语义角色自动标注,并根据所述标注从查询语句中提取具有语义信息的三元组,最后将所述三元组作为查询输入,利用所述本体库生成查询答案。应用本发明专利技术,能够识别用户自然语言输入的搜索语句。并且在答案提取时,不需要大量的答案库进行匹配。

【技术实现步骤摘要】

本专利技术涉及自然语言搜索
,特别是关于一种自然语言的搜索方法和装置。
技术介绍
在现有技术中常用的搜索技术主要是基于关键字匹配或主题分类,但是由于缺乏语义信息,缺乏知识理解和推理能力,存在搜索返回信息包括大量的无关信息,并且返回信息还存在质量低及信息丢失、查准率的精度不够等问题,其主要原因是因特网在信息表达和检索方面存在的缺陷,没有提供给计算机足够的可读信息,限制了计算机在检索中的自动分析能力。现有技术中采用的方法是,首先对用户的搜索输入进行语义分析,配合词性标注,找出对搜索引擎有意义的关键词。然后再对业务数据的索引文件进行检索。如在搜索中输入“从包头怎么去五台山?”,可以依据汉语词典对句子进行语义的拆分,即分词成:“包头”、“怎么去”、“五台山”这些正是语义的主体,也是自然语言搜索需要的关键词。因为对于搜索而言,被搜索内容事先已经按词典里的词条进行索引的创建。所以,在搜索时返回的答案可能是包头的相关信息、五台山的相关信息、同时也包括用户需要查询的从包头怎么去五台山的信息。可见现有技术中因为没有对用户输入的语义进行准确的理解,所以在返回的信息时,不能及时准确的反馈用户所需要的信息。
技术实现思路
本专利技术提供一种自然语言的搜索方法和装置,用于解决现有技术进行自然-->语言搜索时,只是为查询用户返回大量的相关网页的问题。一种自然语言搜索的方法,包括:A、构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;B、针对查询用户输入的搜索语句,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注;C、选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;D、将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。其中,所述汉语框架知识库中的内容由语义Web标记语言描述。所述汉语知识框架库包括框架库、句子库和词元库:所述框架库是以框架为单位,保存框架的定义、构成框架的框架元素以及框架和框架之间的关系;所述句子库记录带有框架语义标注信息的句子,所述带有框架语义标注信息的句子是按照框架库所提供的框架和框架元素标注句子的框架语义信息和句法信息;所述词元库保存每个框架所涉及到的词元。其中,构建专业领域知识本体库,具体步骤包括:参照与专业领域相关的分类体系标准构建该领域的本体模型;通过本体编辑工具把本体库内各知识条目的概念、各知识条目的关系以及实例用语义Web标记语言表示,并存储为计算机可读的文档格式。所述步骤B之后,进一步包括:-->当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。其中,所述步骤D,包括:根据所述标注从所述搜索语句中提取具有语义信息的三元组;根据所述三元组生成查询语句,在本体库中查找与该三元组匹配的相关内容;如果查找成功则生成候选答案集;如果查找失败,则利用相应的查询规则创建推理机进行推理,并生成相应的数据模型进行查询,查询成功后生成相应的候选答案集。所述生成候选答案集之后,进一步包括:对候选答案集中的答案进行排序,并将排序后的答案返回给查询用户。进一步,当用户输入的搜索语句为问句时,在生成三元组之后,包括:进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信息;将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。根据上述方法,本专利技术还提供一种自然语言搜索装置,包括:存储模块,用于存储汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;分析模块,用于当查询用户输入搜索语句时,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注;语义谓词模块,用于选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;-->答案生成模块,用于将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。其中,所述存储模块还用于利用语义Web标记语言描述汉语框架知识库中的内容。进一步,所述分析模块包括:框架确定单元,用于当查询用户输入搜索语句时,将搜索语句中的动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架;标注单元,用于根据所述框架中包含的框架元素对所述搜索语句进行标注。所述语义谓词模块包括:选择单元,用于从搜索语句的动词中选择一个动词作为语义谓词;提取单元,用于并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组。所述答案生成模块包括:查询单元,用于将所述三元组作为查询搜索输入,利用所述专业领域知识本体库生成候选答案集;推理单元,用于当查询模块查找失败时,利用相应的查询规则创建推理机进行推理,并生成相应的数据模型进行查询生成候选答案集。排序单元,用于对候选答案集中的答案进行排序,并根据该排序将答案返回给用户。进一步,所述选择单元还用于当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择一个动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。该装置还包括:问句模块,用于当用户输入的搜索语句为问句时,进行问句分析,提取所述问句的疑问词和疑问意向词,得到该问句的询问信息;-->则所述答案生成模块还用于将所述询问信息和三元组作为查询输入,利用所述专业领域本体库生成候选答案集。本专利技术利用CFN对查询用户输入的自然搜索语句进行自动标注,然后提取具有语义信息的三元组,将所述三元组作为查询输入在本体库中进行答案的搜索。因为在进行本体库搜索之前已经进行了语义分析并标注所以能快速而且高效的搜寻到确切的答案。附图说明图1为本专利技术实施例一种自然语言搜索的方法的流程图;图2为本专利技术实施例中汉语框架语义知识库中各子库的连接关系图;图2A为本专利技术实施例中汉语框架知识库中各框架构成的框架网络图;图3为本专利技术实施例从搜索语句中提取三元组的流程图;图3A为本专利技术实施例利用汉语框架知识库对查询语句进行语义角色标注的流程图;图4为本专利技术实施例利用本体库进行答案的提取的流程图;图4A为推理机的工作原理图;图5为本专利技术实施例一种针对简单搜索语句的查询方法流程图;图6为利用本专利技术方法应用于旅游领域的流程图;图6A为景点、住宿、交通工具、娱乐、餐饮及购物6类(概念)之间的关系模型图;图7为本专利技术实施例对问句进行三元组提取的流程图;图8为本专利技术实施例一种自然语言搜索装置的装置图;图9为本专利技术实施例一种自然语言搜索装置中分析模块装置图;图10为本专利技术实施例一种自然语言搜索装置语中语义谓词模块装置图;图11为本专利技术实施例一种自然语言搜索装置语中答案生成模块装本文档来自技高网...

【技术保护点】
一种自然语言搜索的方法,其特征在于,包括: A、构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义; B、针对查询用户输入的 搜索语句,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注; C、选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语 义谓词以及该语义谓词的主体和/或客体生成三元组; D、将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。

【技术特征摘要】
1、一种自然语言搜索的方法,其特征在于,包括:A、构建汉语框架知识库CFN和专业领域知识本体库,所述汉语框架知识库中保存具有相同语义的多个词元、框架以及构成框架的框架元素,其中所述框架用于表述所述相同语义;B、针对查询用户输入的搜索语句,将所述搜索语句中的至少一个动词与汉语框架知识库中的词元进行匹配,找到所述动词所属的框架,并根据所述框架中包含的框架元素对所述搜索语句进行标注;C、选择所述动词中的一个作为语义谓词,并根据所述标注从所述搜索语句中提取出所述语义谓词以及该语义谓词的主体和/或客体生成三元组;D、将所述三元组作为查询输入,利用所述专业领域知识本体库生成候选答案集。2、如权利要求1所述的方法,其特征在于,所述汉语框架知识库中的内容由语义Web标记语言描述。3、如权利要求2所述的方法,其特征在于,所述语义Web标记语言包括可扩展标记语言XML、资源描述框架RDF、本体标记语言OWL。4、如权利要求1所述的方法,其特征在于,所述汉语知识框架库包括框架库、句子库和词元库:所述框架库是以框架为单位,保存框架的定义、构成框架的框架元素以及框架和框架之间的关系;所述句子库记录带有框架语义标注信息的句子,所述带有框架语义标注信息的句子是按照框架库所提供的框架和框架元素标注句子的框架语义信息和句法信息;所述词元库保存每个框架所涉及到的词元。5、如权利要求1所述的方法,其特征在于,构建专业领域知识本体库,包括:参照与专业领域相关的分类体系标准构建该领域的本体模型;通过本体编辑工具把本体库内各知识条目的概念、各知识条目的关系以及实例用语义Web标记语言表示,并存储为计算机可读的文档格式。6、如权利要求1所述的方法,其特征在于,所述步骤B之后,进一步包括:当搜索语句中有多个动词时,将每个动词与本体库中的条目关系进行比对得到所述动词的语义指数,并根据所述语义指数选择动词作为所述语句的语义谓词,所述语义指数用于衡量动词的重要性。7、如权利要求1所述的方法,其特征在于,所述步骤D,包括:根据所述标注从所述搜索语句中提取具有语义信息的三元组;根据所述三元组生成查询语句,在本体库中查找与该三元组匹配的相关内容;如果查找成功则生成候选答案集;如果查找失败,则利用相应的查询规则创建推理机进行推理,并生成相应的数据模型进行查询,查询成功后生成相应的候选答案集。8、如权利要求1或7所述的方法,其特征在于,所述生成候选答案集之后,进一步包括:对候选答案集中的答案进行排序,并将排序后的答案返回给查询用户。9、如权利要求1所述的方法,其特征在于,当用户输入的搜索语句为问句时,在生成三元组之后,进一步包括:进行问句分析,提取所述问句的疑问词...

【专利技术属性】
技术研发人员:李茹刘开瑛由丽萍王文晶高俊杰王瑞波吕国英谷波李双红钟立军彭洪宝陈雪艳郭海旭宋小香邢欣刘海静郭韦昱孙占虎
申请(专利权)人:山西大学
类型:发明
国别省市:14[中国|山西]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1