一种获取新词的方法、系统及设备技术方案

技术编号:3493557 阅读:150 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种获取新词的方法,包括:A.从聊天数据中获取备选字符串;B.根据预置规则对所得到的备选字符串进行筛选,将经过筛选后的词作为新词。本发明专利技术还同时公开了一种获取新词的系统及实现新词获取的即时通信客户端和服务器,采用本发明专利技术能基于即时通信的词源简单、有效、实时地自动获取新词,并能使所获取的新词适用范围更广。

【技术实现步骤摘要】

本专利技术涉及信息提取技术,特别是指一种利用即时通信(IM)系统获取新 词的方法、系统及实现新词获取的即时通信客户端和服务器。
技术介绍
随着信息化、电子化和网络化的迅猛发展和普及,人们每天会从各种通信 网络、互联网络接触或获取到巨大的信息量;随着信息的大量传播以及人们交 流内容的不断扩展,新的词汇层出不穷并被广泛使用。由于词汇是人们沟通的 基础,不断增加和更新词库是非常必要的。目前,新词获取在输入法和网络搜 索等领域应用较多,对于输入法而言,需要不断更新自身的数据库,以保证为 用户提供更多的词汇、更方便的输入;对于搜索引擎而言,需要随时更新和扩 展搜索关键词,以提高搜索速度。具体来说,在输入法方面,现在常用的中文输入法包括键盘输入和非键盘 输入两类,所谓键盘输入是指利用键盘上的26个英文字母,按照一定的编码规 则输入汉字,如拼音输入、部首输入、五笔输入等等;所谓非键盘输入是指利用其他形式输入汉字,如手写输入、语音输入、光学字符识别(OCR)技术 输入等等。但是,这两类输入方式对获取新词都存在不同程度的问题键盘输 入法,是依据用户的输入频率和次数等特征获取新词, 一般的方式是先采集 输入信息并将输入的信息存储,然后对存储的信息按预置规则进行筛选和统计, 这样,虽然能准确的获取新词,但所获取的新词仅来源于某个用户、且仅存储 在该用户当前使用的终端上,并不能面向更多用户,即使很多新词是大家都常用的,不同用户也需要各自通过频繁输入分别获取;而且,对于同一用户,由于新词仅存储在当前使用的终端上,那么,更换终端后又需要重新获取,比如:在办公室的终端上已得到很多常用的新词,但在自家的终端上使用所需的新词 时又需要重新获取。非键盘输入法,很明显,这类输入本身是靠设备或软件对 笔迹、声音、光学字符的识别完成汉字的输入,并不能保证较高的识别准确度, 那么,在这种识别程度上获取新词,很可能得到错误的词汇或并非所需的词汇, 因此很难达到获取新词的真正目的。在网络搜索方面,新词的获取是将采集到 的所有网络用户输入的关键词,汇集到网络服务器上存储,之后再进行统计和 提取。但是,由于新词的不断出现,且分散在不同的语料库中,很难及时、有 效地识别与更新;而且,现有技术通常会采用人工参与收集、整理和辨别新词 的方式,再将得到的新词加入已有词库中,如此,不仅耗费时间、成本,且工 作效率很低。可以看出,现有技术获取新词的途径相对较少,主要是对用户输入和查询 关键词进行收集和统计,进而获取到新词,目前并未将其它信息来源作为新词 的获取源。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种获取新词的方法,能基于即时 通信的词源简单、有效、实时地自动获取新词,并能使所获取的新词适用范围 更广。本专利技术的另一目的在于提供一种获取新词的系统及设备,能支持基于即时 通信的新词自动获取方式,实现简单方便、灵活有效。为达到上述目的,本专利技术的技术方案是这样实现的本专利技术提出了一种获取新词的方法,包括A、 从聊天数据中获取备选字符串;B、 根据预置规则对所得到的备选字符串进行筛选,将经过筛选后的词作 为新词。步骤A中,所述的获取为获取本端输入的聊天数据;或为获取接收到的 对端的聊天数据,其中,所述对端为一个或一个以上。所述聊天数据为本端输入的聊天数据;则步骤A具体为IM客户端软件接收当前用户通过输入法输入的数据信息,在将输入数据作 为聊天记录显示于即时通信界面的同时,将当前的输入信息作为备选字符串;或者,所述聊天数据为来自对端的聊天数据;则步骤A具体为IM客户端软件接收对端发来的数据信息,在将接收的数据信息作为聊天记 录显示于即时通信界面的同时,将收到的数据信息作为备选字符串。步骤A与步骤B之间进一步包括将备选字符串划分为一个或一个以上的 词;则步骤B根据预置规则对所得到的词进行筛选。步骤B所述筛选后进一步包括统计并判断经过筛选的词在指定位置出现 的次数是否达到设定阈值,如果达到,则将相应词作为新词;否则不作为新词。 其中,所述指定位置为互联网数据,或为来自本端或对端的聊天记录。上述方案中,该方法进一步包括将获取的新词并入各种输入法的数据库。上述方案中,所述步骤A和步骤B由IM客户端完成,该方法进一步包括 IM客户端将获取的新词通过即时通信系统发送给对端用户。上述方案中,所述步骤A和步骤B由IM客户端完成,该方法进一步包括 IM客户端将获取的新词上载到后台服务器,由后台服务器主动下载给各个注册 的IM客户端,或根据IM客户端的请求下载给有需求的IM客户端。上述方案中,所述步骤A和步骤B由后台服务器完成,该方法进一步包括 后台服务器将获取的新词主动下载给各个注册的IM客户端,或根据IM客户端 的请求下载给有需求的IM客户端。本专利技术还提出了一种实现新词获取的IM客户端,包括文本输入单元、 即时消息收发单元、聊天记录显示单元,关键在于,该IM客户端还包括终 端侧筛选单元;所述文本输入单元,用于接收并显示本端用户输入的信息,并将收到的信息发送给即时消息收发单元、聊天记录显示单元和终端侧筛选单元;所述即时消息收发单元,用于将从文本输入单元接收的本端用户输入的信息发送给另一 IM客户端,并将接收到的另一 IM客户端发来的信息发送给聊天 记录显示单元和终端侧筛选单元;所述终端侧筛选单元,接收来自文本输入单元的本端输入的聊天数据信息, 以及来自即时消息收发单元的对端发来的聊天数据信息,并根据预置规则对聊 天数据对应的备选字符串进行筛选,得到新词。其中,该IM客户端进一步包括分词单元,用于将得到的聊天数据对应的 备选字符串划分为一个或一个以上的词,再将划分好的词送至终端侧筛选单元 进行筛选。该IM客户端还进一步包括统计单元,用于接收终端侧筛选单元进行筛选 后的词,并将接收到的词与从指定位置获得的数据信息进行比较,统计所接收 到的词在指定位置出现次数是否达到设定阈值,将达到阈值的词作为新词。所述即时消息收发单元还可以进一步用于将本端获取的新词发送给对端, 或接收对端发来的新词。该IM客户端进一步包括服务器交互单元,用于将本端获取的新词上载至 后台服务器,或接收后台服务器广播发送的新词,或向后台服务器请求并下载 新词。本专利技术还提出了一种实现新词获取的服务器,包括聊天数据收发单元;该 服务器还包括服务器侧筛选单元;所述聊天数据收发单元,接收各个IM客户端发来的聊天记录,并将收到的所有聊天数据送至服务器侧筛选单元;所述服务器侧筛选单元,根据预置规则对备选字符串进行筛选,得到新词。 该服务器进一步包括分词单元,用于将得到的聊天数据对应的备选字符串划分为一个或一个以上的词,再将划分好的词送至服务器侧筛选单元进行筛选。 上述方案中,该服务器进一步包括统计单元,用于接收服务器侧筛选单元进行筛选后的词,并将接收到的词与从指定位置获得的数据信息进行比较,统 计所接收到的词在指定位置的出现次数是否达到设定阈值,将达到阈值的词作为新词。所述聊天数据收发单元还进一步用于将获取的新词直接下载到各个IM客户端,或根据IM客户端的请求下载给有需求的IM客户端。本专利技术又提出一种获取新词的系统,包括至少一个IM客户端、后台服务 器;该系统还包括筛选单元,用于根据预置规则对备选字符串进行筛选,得到新词。本文档来自技高网
...

【技术保护点】
一种获取新词的方法,其特征在于,该方法包括:    A、从聊天数据中获取备选字符串;    B、根据预置规则对所得到的备选字符串进行筛选,将经过筛选后的词作为新词。

【技术特征摘要】

【专利技术属性】
技术研发人员:李伟杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利