处理问答语料的方法、装置及电子终端制造方法及图纸

技术编号:20448780 阅读:35 留言:0更新日期:2019-02-27 02:54
本发明专利技术实施例提供一种处理问答语料的方法、装置及电子终端,所述方法包括:根据语料库构造多个第一问答对;去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。以此可以解决由于人为因素过多带来的知识遗漏、效率低的问题,并能够提高问答知识库的质量,从而向用户提供高质量的智能问答服务。

The Method, Device and Electronic Terminal of Question and Answer Corpus Processing

The embodiment of the present invention provides a method, device and electronic terminal for processing question-and-answer corpus. The method includes: constructing multiple first question-and-answer pairs according to corpus; removing the redundant data in the first question-and-answer pair and obtaining the pre-processed question-and-answer pair; judging whether the pre-processed question matches the answer; and if so, judging the result as a matching question and answer. The answer is constructed as a second question-and-answer pair, and the second question-and-answer pair is stored in the question-and-answer database. In this way, the problem of knowledge omission and inefficiency caused by too many human factors can be solved, and the quality of question-and-answer knowledge base can be improved, thus providing users with high-quality intelligent question-and-answer service.

【技术实现步骤摘要】
处理问答语料的方法、装置及电子终端
本专利技术涉及互联网
,具体而言,涉及一种处理问答语料的方法、装置及电子终端。
技术介绍
智能问答系统是一种利用计算机自动回答用户所提出的问题以满足用户知识需求的软件系统。智能问答系统在工作过程中依赖于一个包含大量问答对的问答知识库。当智能问答系统接收到用户所提出的问题后,系统会利用信息检索、意图识别、语义解析、语义匹配等一系列技术手段,基于问答知识库选取出合适的答案返回给用户。目前,构建问答知识库的方法主要依赖于人工操作,人工操作效率低,难以提高问答知识库的质量。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种处理问答语料的方法、装置及电子终端。第一方面,本专利技术实施例提供一种处理问答语料的方法,包括:根据语料库构造多个第一问答对;分别对所述第一问答对中的问题、答案进行预处理;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。第二方面,本专利技术实施例提供一种处理问答语料的装置,所述装置包括:第一构造模块,用于根据语料库构造第一问答对;预处理模块,用于分别对所述第一问答对中的问题、答案进行预处理;判断模块,用于判断经过预处理的问题与答案是否匹配;第二构造模块,用于将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。第三方面,本专利技术实施例提供一种电子终端,包括:存储器;处理器;所述存储器用于存储支持处理器执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。与现有技术相比,本专利技术实施例的处理问答语料的方法、装置及电子终端,可以通过从含有大量人工应答记录的语料库中构造出多个第一问答对。在得到第一问答对后,对问答对中的问题、答案进行预处理可以提高数据处理效率,例如,可以对问题、答案中的冗余信息进行去除,也可以滤除一些信息不完整的问答对,以此能够减小数据处理量,简化处理步骤;再对经过预处理的问答对进行匹配分析,可以得到满足匹配条件的第二问答对,并将第二问答对作为建立问答知识库的重要元素。以此可以解决由于人为因素过多带来的知识遗漏、效率低的问题,并能够提高问答知识库的质量,从而向用户提供高质量的智能问答服务。为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提供的服务器与客户端进行交互的示意图。图2为本专利技术实施例提供的电子终端的方框示意图。图3为本专利技术实施例提供的处理问答语料的方法的流程图。图4为本专利技术实施例提供的判断问题信息和答案信息是否完整的算法模型的结构示意图。图5为本专利技术实施例提供的判断问题-答案是否匹配的算法模型的结构示意图。图6为本专利技术实施例提供的处理问答语料的装置的功能模块示意图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。现有的智能问答知识库的创建、维护过程中需要的问答对都是由人工获取的或者是依靠简单规则从海量的人工应答语料中直接获取的。人工获取的效率低,依靠简单规则直接从人工应答语料中获取问答对的方法得到的问答对质量低,不论是智能问答知识库的创建过程还是维护过程都存在挑战,这会制约智能问答系统的整体应答效果。如图1所示,是本专利技术实施例提供的服务端100与客户端200进行交互的示意图。所述服务端100通过网络与一个或多个客户端200进行通信连接,以进行数据通信或交互。所述服务端100的对应设备可以是网络服务器、数据库服务器等。所述客户端200的对应设备可以是个人电脑(personalcomputer,PC)、平板电脑、智能手机、个人数字助理(personaldigitalassistant,PDA)等。其中,用户可以通过客户端200登录自己的账号,其中,每一个账号对应一个用户标识,用户可以通过账号与服务端100进行数据交互。在本专利技术实施例中,客户端200可以是网络应用的前端,服务端100可以是网络应用的后端,服务端200可以提供一个存储有高质量问答对的问答库,用户可以通过客户端200访问服务端200以得到高质量问答对。如图2所示,是本专利技术实施例提供的电子终端100的结构框图。所述电子终端100包括处理问答语料的装置110、存储器120、存储控制器130、处理器140以及网络单元150等。所述存储器120、存储控制器130、处理器140、网络单元150相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述处理问答语料的装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述电子终端100的操作系统(operatingsystem,OS)中的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块,例如所述处理问答语料的装置110包括的软件功能模块或计算机程序。其中,存储器120可以是,但不限于,随机存取存储器(RandomAccessMemory,RAM),只读存储器(ReadOnlyMemory,ROM),可编程只读存储器(ProgrammableRead-OnlyMemory,PROM),可擦除只读存储器(ErasableProgrammableRead-OnlyMemory,EPROM),电可擦除只读存储器(ElectricErasableProgrammableRead-OnlyMemory,EEPROM)等。其中,存储器120用于存储程序,所述处理器140在接收到执行指令后,执行所述程序。处理器140以及其他可能的组件对存储器120的访问可在存储控制器130的控制下进行。本专利技术实施例任一实施例揭示的过程定义的电子终端100所执行的方法可以应用于处理器140中,或者由处理器140实现。处理器140可能是一种集成电路芯片,具有信号的处理能力。上述的处理器140可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用本文档来自技高网...

【技术保护点】
1.一种处理问答语料的方法,其特征在于,包括:根据语料库构造多个第一问答对;去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。

【技术特征摘要】
1.一种处理问答语料的方法,其特征在于,包括:根据语料库构造多个第一问答对;去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对;判断经过预处理的问题与答案是否匹配;若是,将判定结果为匹配的问题和答案构造为第二问答对,并将所述第二问答对存入问答库中。2.如权利要求1所述的处理问答语料的方法,其特征在于,所述根据语料库构造多个第一问答对的步骤,包括:获取语料库,所述语料库中包括提问方的会话内容,以及与所述提问方的会话内容对应的应答方的会话内容;按照时间顺序将提问方的会话内容、应答方的会话内容进行排序;根据排序后的会话内容生成目标会话段;根据所述目标会话段构造多个第一问答对。3.如权利要求2所述的处理问答语料的方法,其特征在于,所述根据所述目标会话段构造多个第一问答对的步骤,包括:在同一所述目标会话段中,根据所述提问方的会话内容,按照时间顺序筛选出至少一个与所述提问方的会话内容对应的应答方的会话内容,将所述提问方的会话内容与经过筛选得到的应答方的会话内容作为第一问答对。4.如权利要求1所述的处理问答语料的方法,其特征在于,所述去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对的步骤,包括:分别识别所述第一问答对中的问题、答案中的冗余信息,所述冗余信息包括链接、表情图、特殊符号中的至少一种;将识别出的所述冗余信息进行删除,或统一替换以得到预处理后的问答对。5.如权利要求1或4所述的处理问答语料的方法,其特征在于,所述去除所述第一问答对中的问题、答案中的冗余数据得到预处理后的问答对的步骤,还包括:分别判断所述第一问答对中的问题、答案的内容是否残缺;若是,滤除存在残缺问题的问答对;以及滤除存在残缺答案的问答对。...

【专利技术属性】
技术研发人员:廖宇康江岭
申请(专利权)人:成都小多科技有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1