根据基于社区的问题回答档案库的自动常问问题汇编制造技术

技术编号:8219332 阅读:180 留言:0更新日期:2013-01-18 01:59
使用基于社区的问题回答(CQA)数据来生成常问问题(FAQ)数据。题目层次生成模块接收多个数据源并且生成数据源的题目层次,其中数据源具有一个或多个主题,而主题具有一个或多个题目。特征分类器基于题目层次将多个CQA数据分类成一个或多个题目,其中CQA数据包含多个问题回答对。选择模块基于分类从CQA数据中选择多个问题回答对,测量所选择的问题回答对的质量,并且使用所选择的CQA数据的问题回答对来生成FAQ数据。

【技术实现步骤摘要】
【国外来华专利技术】根据基于社区的问题回答档案库的自动常问问题汇编相关申请的交叉引用本申请要求于2010年4月6日提交的、名称为“Automatic Frequently AskedQuestion Compilation from Community-based Question Answering Achieve,,的美国临时申请第61/321,133号的权益,其全部内容通过引用结合于此。
技术介绍
本专利技术一般地涉及来自社区生成的问题回答对的数据或者其它非结构化的存档数据的常问问题(FAQ)列表的生成。基于社区的问题回答(CQA)数据和常问问题(FAQ)数据的相似之处在于两者均使用成对的问题与回答来提供信息。然而,在提供CQA数据的服务累积用户生成的问题回答对的同时,FAQ数据通常以显著的成本由专家关于一个或多个主题手工进行汇编。因此,FAQ数据通常是简练的、全面的、良好划分的,并且以正式的合乎文法的语言书写,然而,CQA数据在语言和内容两方面具有参差不齐的质量,并且由于大量的提供数据的参与者而通常具有松散的结构并且被粗糙地划分。通过要求FAQ数据领域的一个或多个专家监视FAQ主题的发展和FAQ主题用户行为的变化,FAQ数据的维护引入了额外的复杂性。因此,常规的FAQ数据通常是欠维护的并且很快变得过时。虽然CQA数据更能被维护,但是甚至在最特定层级的CQA数据中都会有的大量的问题回答对导致了信息超载。另外,用于生成CQA数据的内容的质量从极好到不 切题急剧变化。进一步,CQA数据的常规种类结构通常没有特定得足以包括便于用户访问的特定关系。
技术实现思路
本专利技术的实施例涉及用于对与主题相关联的基于社区的问题回答(CQA)数据进行分层次地分类和总结以呈现出与该主题相关联的简练的且分层次地组织的常问问题(FAQ)数据的方法和系统。在一个实施例中,通过从与特定主题相关联的一个或多个源中以及与特定主题相关联的结构化数据中检索数据来生成针对该特定主题的题目层次。例如,与特定主题相关联的数据从与该特定主题相关联的网站或手册中检索,并且被用来生成与该主题相关联的题目层次。使用来自题目层次的数据,从一个或多个CQA源中检索CQA数据并将其用于训练分类器。在一个实施例中,使用来自一个或多个CQA源的数据来训练分类器如类别特征质心(CFC)分类器。在训练之后,分类器根据题目层次将CQA数据组织成一个或多个题目。题目之内的CQA数据中包括的问题回答对被簇集,并且基于相关性得分和质量得分将题目的簇内的问题回答对的子集与该题目进行关联并进行存储。因此,所存储的与题目相关联的数据包括一个或多个如下问题回答对所述问题回答对具有至少阈值数目的与先前识别的高质量问题回答对相关联的特征,并且还具有与包括该问题回答对的簇的质心相距比较小的距离。与簇的质心相距小的距离表示问题回答对高度相关于与簇相关联的题目。附图说明图I是根据本专利技术的实施例的用于使用基于社区的问题回答(CQA)数据来生成常问问题(FAQ )数据的系统环境的高级框图。图2是根据本专利技术的实施例的计算装置的框图。图3是根据本专利技术的实施例的FAQ生成器的框图。图4是根据本专利技术的实施例的用于使用CQA数据来生成FAQ数据的过程的流程图。图5是根据本专利技术的实施例的用于基于CQA数据的分类来选择CQA数据以用于生·成FAQ数据的过程的流程图。具体实施例方式FAQ牛成平台体系结构本专利技术的实施例可以使用多种体系结构(例如图I中示出的示例性体系结构)来实现。在这个实施例中,常问问题(FAQ)生成器130从一个或多个数据源110AU10B以及一个或多个社区问题回答(CQA)源115AU15B中检索数据,并且根据所检索的数据来生成FAQ数据。在图I示出的实施例中,FAQ生成器130、数据源IlOA和IlOB以及CQA源115A和115B耦合到网络120。虽然图I描绘了两个数据源110AU10B和两个CQA源115A、115B,但是在其它实施例中可以使用更多数目或更少数目的数据源110和CQA源115。一个或多个数据源110AU10B包括计算装置或存储装置,所述计算装置或存储装置包括与一个或多个特定主题相关联的数据。如在此使用的那样,“主题(topic)”指的是顶层级或总名称,而“题目(theme)”指的是“主题”内的种类。在层次上,主题是层次的顶层级,而“题目”是主题内的种类或类别。例如,主题可以是产品名称,而与主题相关联的题目可以是产品的不同特征。数据源110AU10B包括与主题相关联的数据。数据源110A、110B的例子包括特定于产品的网站、产品手册或者特定于其它领域的网页或网站。另外,数据源110A、IIOB包括其它信息源如在线百科全书。一个或多个CQA源115AU15B包括计算装置或存储装置,所述计算装置或存储装置包括与一个或多个特定主题和/或主题内的一个或多个题目相关联的CAQ数据。在一个实施例中,CQA数据包括被构造成使得一个或多个答案与问题相关联的用户生成的问题回答对。CQA源115可以将存储的问题回答对与主题、题目或其它种类相关联,以便于随后的数据检索。可以包括使用无线通信系统的局域网和/或广域网的任意组合的网络120在一个或多个数据源110A、110B、一个或多个CQA源115A、115B和/或FAQ生成器130之间传送数据。在实施例中,网络120是因特网,并且使用无线通信系统与有线通信系统的组合来传送数据。FAQ生成器130包括经由网络120来与一个或多个数据源110A、IlOB和/或一个或多个CQA源115AU15B进行通信的一个或多个计算装置。在图3示出的实施例中,FAQ生成器130包括题目层次生成模块310、特征分类器320以及选择模块330。如上面结合数据源110AU10B所描述的那样,题目层次生成模块310被配置成基于与从一个或多个数据源110A、110B中检索的主题相关联的数据的结构或层次来生成识别主题内的题目的题目层次。特征分类器320被配置成使用题目层次、采用基于质心的分类器从一个或多个CQA源115AU15B中生成类别特征质心。选择模块330被配置成选择一个或多个所分类的CQA数据以生成FAQ数据。数据源110AU10B包括与主题相关联的数据。在一个实施例中,题目层次生成模块310使用数据源110内的数据的结构或层次来生成识别主题内的题目以及题目彼此之间的关系的题目层次。例如,在线百科全书的关于主题的数据的分层大纲和/或特定于主题的网站的结构由FAQ生成器130识别,并且被用来生成主题内的题目的结构化对象模型。使用与主题相关联的在线百科全书数据的结构或特定于主题的网站的版块(section)的结构,将结构化对象模型进一步提炼成题目层次。FAQ生成器130的特征分类器320基于主题和题目的题目层次将CQA数据分类。在一个实施例中,特征分类器320是修改的类别特征质心(mCFC)分类器,以使用来自题目层次的题目对所接收的CQA数据进行分类。例如,mCFC分类器对具有至少两个子题目的非 叶题目进行分类,所述至少两个子题目可以是直接子题目或者子题目的后代。根据常见质心分类器来采用mCFC分类器的基本框架,在所述常见质心分类器中,原型或“质心”用作针对题目的代表(delegate)。本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:蔡达成明朝燕
申请(专利权)人:新加坡国立大学
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1