从自然语言电子邮件萃取安排计划信息的方法与装置制造方法及图纸

技术编号:2864222 阅读:282 留言:0更新日期:2012-04-11 18:40
一处理器是连结至一储存有寄来的电子邮件的储存装置、一从属关系数据库,与一使用于行事历应用软件的程序码。藉由该处理器分析寄来的电子邮件,以建构一包含有从该电子邮件所得到的字对的从属关系树。这些字对是被当作从属关系对而储存在该从属关系树的一树状结构内。计算对应于该从属关系树的一机率总和,以判断该电子邮件是否包含有安排计划信息。若该机率和超过一预设值,该电子邮件被假设为包含有安排计划信息,而从该从属关系树萃取出该安排计划信息,并将该安排计划信息输出至该行事历应用软件。

【技术实现步骤摘要】

本专利技术涉及一种从一电子邮件中以计算机化的方式萃取出安排计划信息(scheduling information)的方法,特别涉及一种从一自然语言电子邮件中以计算机化的方式萃取出安排计划信息,以自动化地将该安排计划信息安插至一电子行事历的装置与方法。
技术介绍
现代人时常使用电子装置以帮助安排个人行程。我们通常使用行事历以帮助自己记得未来的重要约会。利用电子行事历应用软件(calendarapplication),使用者可相对应于未来的特定约会与其时间,在该电子行事历应用软件内设定该约会为一特别的事件,该电子行事历应用软件同时具有提醒功能,当约会的时间快到的时候,可自动提醒该使用者,让其知道未来的行程内有该约会。电子邮件(electronic mail,简称为e-mail)在现在社会中是很重要的沟通管道。人们使用电子邮件以与亲朋好友联络,亦用其作为商业信息往返的管道。电子邮件通常包含有有关于安排计划事件(scheduling event)的信息,而使用者则通常会希望将该安排计划事件的信息加入其个人的行事历应用软件。像这样的事件种类包含有会议、约会、截止期限等等。图1显示了一例子,该例为一包含有相关于一商务报告的安排计划信息的电子邮件100。在收到电子邮件100之后,为了能记得信件上面所列的约会以及其时间,所以每个事件的信息皆被列出并被加入至该行事历应用软件。因为电子邮件100为一自然语言(英语)的电子邮件,且不遵循该行事历应用软件所认可的特定格式,使用者必须要手动地将每一个事件加入该行事历,如此非常耗时且容易出错。因此产生了一种需求,即是需要一自动化的处理,可以自动帮忙使用者从一自然语言的电子邮件萃取出安排计划信息,并且直接将其作适当的处理,以将需要的信息直接安插进一行事历应用软件。如在美国专利第6,035,278号中Mansour揭露了一会议安排工具,该工具可让一使用者搜寻找出一尚未被安排的时段、将一会议安排在该时段,并且可管理该计划表的时段安排。该会议安排工具可以连结至一电子邮件系统,然而,这仅是利用安排计划的工具去安排会议以告知使用者,而不是从一寄来的电子邮件搜集安排计划信息的方法。又如在美国专利第6,094,681号中Shaffer等人揭露一自动化的事件通知装置(automated event notification apparatus),该装置包含有一数据过滤器(data filter),其可以分析在电子邮件信息内所包含的数据、对传入一计算机的电子行事历的数据的更新与要求安排,以及对该电子行事历传送的提醒信息作安排。然而,该自动化的事件通知装置仅使用该数据过滤器去判断一个事件是否已发生。若该事件已发生,则该装置会以某种方式通知使用者。该装置除了可确认某一事件是否已经发生之外,并没有提供任何从安排计划中所萃取出的信息。该数据过滤器只能做二元化的判断,所以仅能判断与决定该事件是已发生或尚未发生。又如在美国专利第6,272,532号中Feinleib揭露一中央电子提醒系统(centralized electronic reminder system),其用以分析寄来的电子邮件信息,以产生电子提醒信息(reminder electronic message)。其接收到自然语言电子邮件之后会分析该邮件,之后从该邮件中萃取出所要的提醒用的信息,当目前日期与于该提醒信息(reminder information)内明载的日期相符时,该电子提醒系统会建立一电子信息,该电子信息会被送至该提醒信息内明载的接受者。虽然该电子提醒系统使用自然语言的电子邮件,却没有能力从该电子邮件去萃取出安排计划信息,并且将其输出至一个人的行事历应用软件。此外,此一专利并没有进一步揭露关于分析该电子邮件以萃取出想要的安排计划信息的适当的方法。再如在已公开的美国专利申请案第20020174185号中Jai等人揭露了一中央系统,其用以藉由分析寄来的电子邮件的档头与数据内容来撷取电子数据;随着电子邮件类型的不同,选择性地从该电子邮件萃取出数据,然后依照使用者的偏好设定,递送出该被萃取出的数据。虽然该系统可以使用很多种格式与类型的电子邮件,其仍然无法让一使用者从电子邮件里萃取出安排计划信息,然后自动化地将该安排计划信息输出至一个人的行事历应用软件。此外,此一专利亦没有进一步揭露关于分析该电子邮件以萃取出想要的安排计划信息的适当的方法。上述的专利无法帮助一使用者去萃取出安排计划信息,以及将该安排计划信息安插入位于使用者端的一行事历应用软件。因此需要一种能够分析该自然语言电子邮件,以正确地萃取出该邮件中所包含的安排计划信息的适当方法。
技术实现思路
因此本专利技术的主要目的在于提供一种从一自然语言电子邮件中以计算机化的方式萃取出安排计划信息,以自动化地将该安排计划信息安插至一行事历应用软件的方法与装置。本专利技术所揭露的一从一自然语言内容中以计算机化的方式萃取出安排计划信息,以自动化地将该安排计划信息安插至一行事历应用软件的方法。该方法包含有下列步骤(a)分析(parse)该自然语言内容以建构一从属关系树;(b)藉由计算出该从属关系树(dependency tree)的一机率总和(possibility sum),以判断该自然语言内容是否包含有安排计划信息;以及(c)若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。本专利技术所揭露的一个人安排计划装置(personal organizationapparatus)包含有一处理器,用以执行位于个人安排计划装置内的程序码;以及一储存单元,其连结于该处理器,用以储存该处理器使用的数据,该数据包含一自然语言内容。该处理器分析该自然语言内容,以建构储存在该储存单元的一从属关系树,并藉由计算出该从属关系树的一机率总和,以判断该自然语言内容是否包含有安排计划信息,以及若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。附图说明图1为本专利技术的一自然语言电子邮件样本,该自然语言电子邮件样本包含有安排计划信息。图2为本专利技术对于一例句的一从属关系对的一示意图。图3为本专利技术描述从一收到的电子邮件萃取出安排计划信息的一流程4为描述如何建构图4中的分析步骤所使用的从属关系数据库的一流程图。图5为描述在图3中的该分析步骤的一流程图。图6为本专利技术对于图1的电子邮件的一从属关系树的一示意图。图7为描述判断该电子邮件是否包含有图3中的安排计划信息的步骤的一流程图。图8为描述图3中的萃取安排计划信息的步骤的一流程图。图9为对于实作图3中的该流程图的一个人安排计划装置的一方块示意图。附图符号说明902处理器 904储存单元906电子邮件 910从属关系数据库912自然语言内容集合 914行事历应用软件916使用者接口 918网络接口920从属关系树具体实施方式人类使用的自然语言是复杂且有多样变化的,然而,在任何人类可理解的内容内,该内容内的所有元素会以某一种方式互有关联。为了从一自然语言内容内萃取出安排计划信息,有必要去判断出何者为可能的安排计划信息,并且判断出这些上述的可能性是否真的含有所要的安排计划信息。本文档来自技高网
...

【技术保护点】
一种用以从一自然语言内容中以计算机化的方式萃取出安排计划信息的方法,以自动将该安排计划信息安排进一行事历应用软件,该方法包含有下列步骤:    (a)分析该自然语言内容以建构一从属关系树;    (b)藉由计算出该从属关系树的一机率总和,以判断该自然语言内容是否包含有安排计划信息;以及    (c)若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。

【技术特征摘要】
US 2003-10-2 10/605,5001.一种用以从一自然语言内容中以计算机化的方式萃取出安排计划信息的方法,以自动将该安排计划信息安排进一行事历应用软件,该方法包含有下列步骤(a)分析该自然语言内容以建构一从属关系树;(b)藉由计算出该从属关系树的一机率总和,以判断该自然语言内容是否包含有安排计划信息;以及(c)若该机率总和的值超过一预设值,则从该从属关系树中萃取出安排计划信息,且将该安排计划信息输出至该行事历应用软件。2.如权利要求1所述的方法,其中,分析该自然语言内容的步骤另包含有将该自然语言内容内的每一个句子切割成为一群字;藉由将该自然语言内容里的字对与一从属关系数据库进行比较,建构含有多个从属关系对的该从属关系树;以及将在该从属关系数据库内发现的这些字对作为从属关系对,加入至该从属关系树。3.如权利要求2所述的方法,其中,当建构该从属关系树时对于该自然语言内容里的每一个句子,将在该句子内的所有可能的前端字都列出来以形成一前端字列表,这些可能的前端字是处于该句子中的主要位置;以及将在该自然语言内容内的每一个句子的每一字与位于该前端字列表内的这些可能的前端字作配对处理,以形成一字对,其中若在该从属关系数据库中找到由该字与该可能的前端字所形成的该字对,则将由该字与该可能的前端字所形成的该字对作为一从属关系对,并将其加入至该从属关系树。4.如权利要求2所述的方法,该方法另包含有使用下列的步骤建构该从属关系数据库将在一内容集合内的每一个句子切割成为一群字,其中,该内容集合包含有多个包含安排计划信息的自然语言内容样本;对于在该内容集合内的每一个句子,检查字对的所有可能组合,以判断该字对是否于该内容集合里具有一高度共同出现率;若该字对在该内容集合里具有一高度共同出现率,则利用一已标记的集合来判断该前端字,以及利用违规限制来检查该字对的合法性,其中,该已标记的集合明载了对于句子里相关于该内容集合内的安排计划信息的实际的前端字,亦包含有所有其他的字相关于这些实际的前端字的从属关系,而该违规限制明载了不合规定的从属关系结构;若该字对为一合法的从属关系对,则计算该字对的机率值,并将该字对作为一从属关系对,以加入至该从属关系数据库,亦将该从属关系对的机率值加入至该从属关系数据库,其中该从属关系对的机率值相对应于在该内容集合内的该字对的出现频率;以及重复上述步骤,直到没有新的从属关系对被发现。5.如权利要求2所述的方法,其中,判断该自然语言内容是否包含有安排计划信息的步骤另包含有藉由将在该从属关系树内的所有从属关系对的机率值作一加总处理,以对应于该自然语言内容计算出一机率总和,每一从属关系对的机率值是相对应于在一内容集合内的从属关系对的出现频率,而该内容集合包含有多个包含安排计划信息的自然语言内容样本。6.如权利要求1所述的方法,其中,在从该自然语言内容萃取出安排计划信息之后,该方法另包含有对应于该安排计划信息计算出一值。7.如权利要求1所述的方法,其中,在从该自然语言内容萃取出安排计划信息之后,该方法另包含有送出一确认信息给使用者,以确认该安排计划信息。8.如权利要求1所述的方法,其中,将该萃取出的安排计划信息输出至该行事历应用软件的步骤另包含有送出一确认信息给该行事历应用软件。9.如权利要求1所述的方法,其中,该自然语言内容为一自然语言的电子邮件。10.一种个人安排计划装置,包含有一处理器,用以执行位于该个人安排计划装置内的程序码;以及一储存单元,其连结于该处理器,用以储存该处理器使用的数据,该数据包含一自然语言内容;其中,该处理器分析该自然语言内容,以建构储存在该储存单元的一从属关系...

【专利技术属性】
技术研发人员:沈正中
申请(专利权)人:宏碁股份有限公司
类型:发明
国别省市:71[中国|台湾]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1