当前位置: 首页 > 专利查询>NHN公司专利>正文

基于网页特性抽出文本的方法及系统技术方案

技术编号:2913833 阅读:206 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于网页特性抽出文本的方法、系统及记录了用于实现上述方法的计算机程序的计算机可读取的记录介质。更具体地说,本发明专利技术的一实施例涉及的文本抽出方式包括:识别网页上的文本指示点的步骤;确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤;基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息,决定文本抽出范围的步骤;以及,抽出上述已决定的范围的文本的步骤。

【技术实现步骤摘要】

本专利技术涉及一种基于网页特性抽出文本的方法及系统,更具体地说,本专利技术涉及一种在提供抽出网页内的文本之后利用该文本提供声音变换或翻译等基于文本的服务时,根据网页特性能抽出单词、句子、段落以及全文等不同范围的文本的方法、系统及计算机可读取的记录介质。
技术介绍
近年来,随着使用因特网的普及,可以通过因特网获取多种多样的信息。为了满足不同用户的需求,通过网站提供因特网服务的企业提供着多种多样的服务,其服务种类也呈日益递增之势。因特网用户以多种形式接触这些企业提供的服务,特别是通过网站获取新闻信息、词典信息、专业信息、地域信息、购物信息等多种多样的因特网内容。这些用户为了得到自己所需的内容,通过网站进行检索并且在特定网页取得所需的内容时,一般是用眼睛释读主要以文本形式构成的该内容。但是,从用户的立场来看,仅利用这些主要以文本形式提供的内容,在多媒体时代的当今已得不到满足。事实上,随着网页中包含的信息量的不断增加,还存在当用户用眼睛释读以文本形式提供的全部的内容时,视线不能离开例如计算机的监视器这样的显示装置的问题。而且,用户中还存在着要求一边从内容中取得所需信息、一边进行其他工作的多任务处理(multitasking)者,这些要求也得不到满足。另外,近年来,VoIP(Voice over IP)技术、声音识别技术、声音变换技术、声音合成技术、自动应答系统等CTI(Computer TelephonyIntegration,计算机电话集成)技术得到了很多关注,我们期待通过这些技术在因特网环境中也能得到用户以声音发出指示、以声音获得信息、-->以声音进行交流的进一步的因特网服务。因此,为了在解决提供以文本为主的内容时存在的问题的同时,更加广泛地使用CTI技术,开发了TTS(Text To Speech)技术。TTS技术是比声音识别技术能够更广泛使用的技术,是一种将各种文本信息变换成声音提供的人性化界面技术。网页上的TTS技术主要是以从网页中抽出文本并将其变换成声音后提供给用户的方式来实现。例如,根据用户在网页的某一位置上将鼠标停顿一定时间时发生的鼠标滑过(mouse-over)事件,抽出与鼠标指示点位置对应的单词并变换成声音,或者用户拖拽网页上的文本的一部分将其变换成声音。但是,目前正在实现的、通过网页提供的TTS服务,不能说是完善的人性化界面技术。具体地说,目前的TTS服务中存在着只能将通过用户的鼠标滑过操作来识别的位置处的单词变换成声音,或者只能使用户直接拖拽鼠标来指定要变换成声音的文本的问题。前者的情况下,存在着未按照用户的意图而将鼠标滑过处的单词一律变换成声音的问题。另外,在后者的情况下,用户为了将期望范围的文本变换成声音,先用眼睛大致解读文本之后,再指定成为声音变换对象的文本的范围,这不仅违背了尽量避免用户直接解读文本的TTS技术的本意,而且上述指定操作还需要额外的时间。因此,需要如下的访问技术,即按照用户的意图并根据网页的特性抽出特定范围(例如单词、句子、段落或者全文的范围)的文本,以提供各种基于文本的服务,由此提高用户的便利性。
技术实现思路
本专利技术的目的在于,提供一种根据网页的特性主动地抽出文本的方法及系统。并且,本专利技术的目的在于,根据网页的特性主动抽出不同范围的文本,可使网页用户方便地取得从该文本变换的数据。另外,本专利技术的另一目的在于,当用户在网页中抽出较宽范围的文本时,减少一一拖拽鼠标的不便感,根据网页的特性自动抽出所需范围的文本,从而减少不必要的用户操作。为了实现如上所述的本专利技术的目的,其代表性的组成如下。-->本专利技术的一种技术方案,是基于网页特性抽出文本的方法,该方法包括:识别网页上的文本指示点的步骤;确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤;基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息,决定文本抽出范围的步骤;抽出上述已决定范围的文本的步骤。本专利技术的另一技术方式,是基于网页特性抽出文本的方法,该方法包括:识别网页上的文本指示点的步骤;确认在文本抽出信息数据库中是否储存着与上述网页的识别符中的至少一部分对应的文本抽出范围的相关信息的步骤;接收上述文本抽出范围的相关信息的步骤;基于上述文本指示点信息和上述接收到的文本抽出范围的相关信息,决定文本抽出范围的步骤;抽出上述已决定范围的文本的步骤。本专利技术涉及的另一技术方案,是将文本变换成声音的方法,该方法还包括生成与按照上述方法抽出的文本相关联的声音数据的步骤。本专利技术涉及的一种基于网页特性抽出文本的系统,其包括:文本指示点识别部,识别网页上的文本指示点;文本抽出范围信息确认部,确认与上述网页的识别符中的至少一部分对应储存的文本抽出范围的相关信息;文本抽出范围决定部,基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息,决定文本抽出范围;文本抽出部,抽出上述已决定的范围的文本。本专利技术涉及的另一技术方案,涉及基于网页特性抽出文本的系统,包括:文本抽出信息数据库;文本指示点识别部,识别网页上的文本指示点;文本抽出范围信息接收部,确认上述文本抽出信息数据库中是否储存着与上述网页的识别符的至少一部分对应的文本抽出范围的相关信息,当未储存时,接收文本抽出范围的相关信息;文本抽出范围决定部,基于上述文本指示点信息和上述接收到的文本抽出范围的相关信息,决定文本抽出范围;文本抽出部,抽出上述已决定的范围的文本。本专利技术涉及的另一种技术方案,是将文本变换成声音的系统,其包括:文本指示点识别部,识别网页上的文本指示点;文本抽出范围信息确认部,确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息;文本抽出范围决定部,基于上述文本指示点信-->息和上述已确认的文本抽出范围的相关信息,决定文本抽出范围;文本抽出部,抽出上述已决定的范围的文本;声音数据生成部,生成与上述抽出的文本相关联的声音数据。本专利技术涉及的另一种技术方案,是将文本变换成声音的系统,其包括:文本指示点识别部,识别网页上的文本指示点;文本抽出范围信息接收部,确认在上述文本抽出信息数据库中是否储存着与上述网页的识别符的至少一部分对应的文本抽出范围的相关信息,若未储存,则接收关于上述文本抽出范围的信息;文本抽出范围决定部,基于上述文本指示点信息和上述接收到的文本抽出范围的相关信息,决定文本抽出范围;文本抽出部,抽出上述已决定的范围的文本;声音数据生成部,生成与上述抽出的文本相关联的声音数据。另外,本专利技术还提供一种基于网页特性抽出文本的其它的方法、系统和记录了用于执行上述方法的计算机程序的计算机可读取的记录介质。根据本专利技术,根据网页特性来主动地抽出文本,基于此提供声音变换服务或者翻译服务等基于文本的服务,使用户不需要很多操作,就可以取得符合用户要求的基于文本数据。而且,根据本专利技术,用户在不太了解网页特性的情况下利用网页时,也可以自动抽出符合该特性的范围的文本,使用户能够有效地掌握网页中表示的内容。另外,根据本专利技术,当用户在网页上要抽出较广范围的文本时,可以消除用户需要拖拽全部文本的不便感,可以防止因鼠标拖拽时的失误引起的文本抽出错误。附图说明图1是表示本专利技术的一实施例涉及的文本抽出系统的大致结构的图;图2a是表示图1所示的文本抽出系统中的用户计算本文档来自技高网
...

【技术保护点】
一种基于网页特性抽出文本的方法,其特征在于,该方法包括: 识别网页上的文本指示点(pointer)的步骤; 确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤; 基于上述文本指示点信息和上述已确认的文 本抽出范围的相关信息,决定文本抽出范围的步骤; 抽出上述已决定范围的文本的步骤。

【技术特征摘要】
KR 2007-11-21 10-2007-01194061、一种基于网页特性抽出文本的方法,其特征在于,该方法包括:识别网页上的文本指示点(pointer)的步骤;确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤;基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息,决定文本抽出范围的步骤;抽出上述已决定范围的文本的步骤。2、一种基于网页特性抽出文本的方法,其特征在于,该方法包括:识别网页上的文本指示点的步骤;确认在文本抽出信息数据库中是否储存着与上述网页的识别符的至少一部分对应的文本抽出范围的相关信息的步骤;如果确认为上述文本抽出信息数据库中未储存上述文本抽出范围的相关信息,则接收上述文本抽出范围的相关信息的步骤;基于上述文本指示点信息和上述接收到的文本抽出范围的相关信息,决定文本抽出范围的步骤;抽出上述已决定范围的文本的步骤。3、根据权利要求1或2所述的方法,其中,上述文本指示点信息是由鼠标滑过事件生成的。4、根据权利要求3所述的方法,其中,上述鼠标滑过事件是鼠标指示点在上述网页的规定区域停留一定时间以上时发生的。5、根据权利要求1或2所述的方法,其中,上述网页的识别符是URL。6、根据权利要求1或2所述的方法,其中,上述文本抽出范围的相关信息,包含根据上述网页特性抽出单词、句子、段落及全文中的哪个范围的信息。7、根据权利要求2所述的方法,其中,上述文本抽出信息数据库中仅储存关于上述文本抽出范围的最新信息。8、根据权利要求1或2所述的方法,其中,上述决定文本抽出范围的步骤,包括决定是使用MSAA方式还是使用IHTML方式来抽出上述网页的文本的步骤。9、一种将文本变换成声音的方法,其中,还包括生成与按照权利要求1或2所述的方法抽出的文本相关联的声音数据的步骤。10、根据权利要求9所述的方法,其中,上述生成的声音数据是与上述抽出的文本对应的声音数据。11、根据权利要求9所述的方法,其中,上述生成的声音数据是与将上述抽出的文本进行了翻译的文本对应的声音数据。12、一种基于网页特性抽出文本的系统,其特征在于,该系统包括:文本指示点识别部,识别网页上的文本指示点;文本抽出范围信息确认部,确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息;文本抽出范围决定部,基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息,决定文本抽出范围;文本抽出部,抽出上述已决定范围的文本。13、一种基于网页特性抽出...

【专利技术属性】
技术研发人员:李允炫金圭一朴振洙
申请(专利权)人:NHN公司
类型:发明
国别省市:KR[韩国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1