基于网页特性抽出文本的方法及系统技术方案

技术编号：2913833 阅读：206 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种基于网页特性抽出文本的方法、系统及记录了用于实现上述方法的计算机程序的计算机可读取的记录介质。更具体地说，本发明专利技术的一实施例涉及的文本抽出方式包括：识别网页上的文本指示点的步骤；确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤；基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息，决定文本抽出范围的步骤；以及，抽出上述已决定的范围的文本的步骤。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于网页特性抽出文本的方法及系统，更具体地说，本专利技术涉及一种在提供抽出网页内的文本之后利用该文本提供声音变换或翻译等基于文本的服务时，根据网页特性能抽出单词、句子、段落以及全文等不同范围的文本的方法、系统及计算机可读取的记录介质。
技术介绍
近年来，随着使用因特网的普及，可以通过因特网获取多种多样的信息。为了满足不同用户的需求，通过网站提供因特网服务的企业提供着多种多样的服务，其服务种类也呈日益递增之势。因特网用户以多种形式接触这些企业提供的服务，特别是通过网站获取新闻信息、词典信息、专业信息、地域信息、购物信息等多种多样的因特网内容。这些用户为了得到自己所需的内容，通过网站进行检索并且在特定网页取得所需的内容时，一般是用眼睛释读主要以文本形式构成的该内容。但是，从用户的立场来看，仅利用这些主要以文本形式提供的内容，在多媒体时代的当今已得不到满足。事实上，随着网页中包含的信息量的不断增加，还存在当用户用眼睛释读以文本形式提供的全部的内容时，视线不能离开例如计算机的监视器这样的显示装置的问题。而且，用户中还存在着要求一边从内容中取得所需信息、一边进行其他工作的多任务处理(multitasking)者，这些要求也得不到满足。另外，近年来，VoIP(Voice over IP)技术、声音识别技术、声音变换技术、声音合成技术、自动应答系统等CTI(Computer TelephonyIntegration，计算机电话集成)技术得到了很多关注，我们期待通过这些技术在因特网环境中也能得到用户以声音发出指示、以声音获得信息、-->以声音进行交流的...

【技术保护点】
一种基于网页特性抽出文本的方法，其特征在于，该方法包括：　识别网页上的文本指示点（ｐｏｉｎｔｅｒ）的步骤；　确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤；　基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息，决定文本抽出范围的步骤；　抽出上述已决定范围的文本的步骤。

【技术特征摘要】
KR 2007-11-21 10-2007-01194061、一种基于网页特性抽出文本的方法，其特征在于，该方法包括：识别网页上的文本指示点(pointer)的步骤；确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息的步骤；基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息，决定文本抽出范围的步骤；抽出上述已决定范围的文本的步骤。2、一种基于网页特性抽出文本的方法，其特征在于，该方法包括：识别网页上的文本指示点的步骤；确认在文本抽出信息数据库中是否储存着与上述网页的识别符的至少一部分对应的文本抽出范围的相关信息的步骤；如果确认为上述文本抽出信息数据库中未储存上述文本抽出范围的相关信息，则接收上述文本抽出范围的相关信息的步骤；基于上述文本指示点信息和上述接收到的文本抽出范围的相关信息，决定文本抽出范围的步骤；抽出上述已决定范围的文本的步骤。3、根据权利要求1或2所述的方法，其中，上述文本指示点信息是由鼠标滑过事件生成的。4、根据权利要求3所述的方法，其中，上述鼠标滑过事件是鼠标指示点在上述网页的规定区域停留一定时间以上时发生的。5、根据权利要求1或2所述的方法，其中，上述网页的识别符是URL。6、根据权利要求1或2所述的方法，其中，上述文本抽出范围的相关信息，包含根据上述网页特性抽出单词、句子、段落及全文中的哪个范围的信息。7、根据权利要求2所述的方法，其中，上述文本抽出信息数据库中仅储存关于上述文本抽出范围的最新信息。8、根据权利要求1或2所述的方法，其中，上述决定文本抽出范围的步骤，包括决定是使用MSAA方式还是使用IHTML方式来抽出上述网页的文本的步骤。9、一种将文本变换成声音的方法，其中，还包括生成与按照权利要求1或2所述的方法抽出的文本相关联的声音数据的步骤。10、根据权利要求9所述的方法，其中，上述生成的声音数据是与上述抽出的文本对应的声音数据。11、根据权利要求9所述的方法，其中，上述生成的声音数据是与将上述抽出的文本进行了翻译的文本对应的声音数据。12、一种基于网页特性抽出文本的系统，其特征在于，该系统包括：文本指示点识别部，识别网页上的文本指示点；文本抽出范围信息确认部，确认与上述网页的识别符的至少一部分对应储存的文本抽出范围的相关信息；文本抽出范围决定部，基于上述文本指示点信息和上述已确认的文本抽出范围的相关信息，决定文本抽出范围；文本抽出部，抽出上述已决定范围的文本。13、一种基于网页特性抽出...

【专利技术属性】
技术研发人员：李允炫，金圭一，朴振洙，
申请(专利权)人：NHN公司，
类型：发明
国别省市：KR[韩国]

全部详细技术资料下载我是这个专利的主人