当前位置: 首页 > 专利查询>陈伯妤专利>正文

一种对话式的自然语言处理方法和装置制造方法及图纸

技术编号:13176831 阅读:73 留言:0更新日期:2016-05-10 20:30
本发明专利技术公开了一种对话式的自然语言处理方法和装置。将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块,然后分别对提取出的语言线性结构以及语块进行倒排,以及创建语言线性结构子索引以及语块子索引,并形成整体索引;提供对话式界面,基于对话式界面接收用户的检索输入字符串;从检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息。应用本发明专利技术以后,通过对触发控件的触发操作予以记忆,确定下一轮对话中兴趣词的关联解释项,从而提高了自然语言处理准确率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理和/或搜索领域。更具体地,涉及一种对话式的自然语言处理方法和装置
技术介绍
自然语言处理(Informat1nRetrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的自然语言处理就是自然语言处理过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Informat1n Search 或 Informat1n Seek)。目前常用的自然语言处理方法通常包括:普通法、追溯法和分段法等。普通法是利用书目、文摘、索引等检索工具进行文献资料查找的方法。运用这种方法的关键在于熟悉各种检索工具的性质、特点和查找过程,从不同角度查找。普通法又可分为顺检法和倒检法。顺检法是从过去到现在按时间顺序检索,费用多、效率低;倒检法是逆时间顺序从近期向远期检索,它强调近期资料,重视当前的信息,主动性强,效果较好。追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工具或检索工具不全时,此法可获得针对性很强。步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速,网络信息急剧膨胀,国际交流日益频繁,通过网络来检索信息以协助人们快速获取信息,已经成为必然的趋势。目前常用的计算机识别技术是将信息转化成二进制的代码机械地匹配,计算机并不了解其信息背后的真实意图。比如,传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象。特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。举例说明,假如用户输入“苹果”的关键字,那究竟用户是指水果还是某种知名电脑品牌,基于传统的关键字匹配检索技术则无法精确区分,从而无法高效、准确地反馈给用户最需要的信息。
技术实现思路
本专利技术提出一种对话式的自然语言处理方法和系统,以准确地向用户反馈所需要的信息。本专利技术的技术方案是这样实现的:一种对话式的自然语言处理方法,该方法包括:将篇章级的词语利用符号切分为字符串,从切出的字符串中提取出语言线性结构和语块;分别对提取出的语言线性结构以及语块进行倒排;创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。所述向用户反馈回复信息包括:依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从所述检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息;其中当从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的重复字数越多时,所述匹配程度越高。预先设置语言线性结构重复权重和语块重复权重;基于所述语言线性结构重复权重计算从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的第一重叠指数,并基于语块重复权重计算从所述检索输入字符串中提取出的语块与整体索引中的语块的第二重叠指数;当所述第一重叠指数与第二重叠指数的和越高,所述匹配程度越高。所述向用户反馈回复信息包括:在所述整体索引中分别检索该检索输入字符串的语言线性结构和语块,以确定整体索引中与该检索输入字符串的语言线性结构相对应的语言线性结构,以及确定整体索引中与该检索输入字符串的语块相对应的语块;向用户反馈整体索引中该相对应的语言线性结构和该相对应的语块所涉及的反馈信息。所述检索输入字符串为用第一语言表述的检索输入字符串;所述向用户反馈回复信息包括:从所述检索输入字符串中提取出该检索输入字符串用第一语言表述的语言线性结构和语块;确定与该用第一语言表述的语言线性结构相对应的用第二语言表述的语言线性结构,以及与该用第一语言表述的语块相对应的用第二语言表述的语块;根据所述的整体索引向用户反馈与用第二语言表述的语言线性结构和用第二语言表述的语块相匹配且同样用第二语言表述的回复信息。该方法进一步包括:为兴趣词的所有关联解释项设置投票值,其中所述第一关联解释项的投票值为所述兴趣词的所有关联解释项的投票值中的最大值;当所述触发控件不被触发时,所述第一关联解释项的投票值增加一次;当所述触发控件被触发时,所述另外关联解释项的投票值增加一次。一种对话式的自然语言处理装置,该装置包括提取单元、倒排单元、索引单元、对话式界面展示单元和回复信息反馈单元,其中:提取单元,用于将篇章级的词语利用符号切分为字符串,并从切出的字符串中提取出语言线性结构和语块;倒排单元,用于分别对提取出的语言线性结构以及语块进行倒排;索引单元,用于创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;对话式界面展示单元,用于提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;回复信息反馈单元,用于从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。回复信息反馈单元,用于依据语言线性结构和语块的匹配程度由高到低的顺序,向用户反馈与从检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息;其中当从所述检索输入字符串中提取出的语言线性结构与整体索引中的语言线性结构的本文档来自技高网
...

【技术保护点】
一种对话式的自然语言处理方法,其特征在于,该方法包括:将篇章级的词语利用符号切分为字符串,从切出的字符串中提取出语言线性结构和语块;分别对提取出的语言线性结构以及语块进行倒排;创建语言线性结构子索引以及语块子索引,并将语言线性结构子索引和语块子索引予以合并,以形成整体索引;提供对话式界面,基于所述对话式界面接收用户的检索输入字符串;从所述检索输入字符串中提取出该检索输入字符串的语言线性结构和语块,并从该提取出的语块中确定预先设定的兴趣词;根据所述整体索引检索出与从用户的检索输入字符串中提取出的语言线性结构和语块相匹配的回复信息,并在所述对话式界面中以对话形式向用户反馈所述回复信息,所述回复信息中包含所述兴趣词的第一关联解释项,其中所述对话式界面设置有将所述回复信息中的第一关联解释项修改为另外关联解释项的触发控件;当所述触发控件不被触发时,所述回复信息中的第一关联解释项不被修改,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词继续被确定为所述第一关联解释项;当所述触发控件被触发时,所述回复信息中的第一关联解释项被修改为另外关联解释项,而且当基于所述对话式界面接收的下一轮检索输入字符串中仍然包含兴趣词时,在位于所述对话式界面中的、对应于所述下一轮检索输入字符串的下一轮回复信息中,所述兴趣词被确定为所述另外关联解释项。...

【技术特征摘要】

【专利技术属性】
技术研发人员:姜蓓陈伯妤
申请(专利权)人:陈伯妤
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1