分布式新词发现方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:27772233 阅读:16 留言:0更新日期:2021-03-23 12:52
一种分布式新词发现方法、装置、计算机设备和存储介质。所述分布式新词发现方法包括:获取待处理文本;获取预设分组规则,根据预设分组规则对待处理文本分组,得到若干组预处理文本;将每组预处理文本进行拼接,得到若干个拼接文本;将每个拼接文本发送至对应的识别终端,接收各个识别终端根据拼接文本得到的预选词;根据预选词获取待处理文本的发现词。通过此方法,将数据量较大的待处理文本分派到多个识别终端进行分布式处理,有效地提高了从其中发现新词的效率。

【技术实现步骤摘要】
分布式新词发现方法、装置、计算机设备和存储介质
本专利技术涉及计算机
,具体地涉及一种分布式新词发现方法、装置、计算机设备和存储介质。
技术介绍
中文自动分词是中文自然语言处理的基础,许多自动化的工具如全文信息检索系统、自动文摘系统等自然语言处理系统,而这些系统的运作都离不开对自然语言的分词。中文分词与英文分词等其他语言分词一样,都是将连续的字序列按照一定的规范重新组合成词序列的过程。但英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,导致不同的分法产生不同的词意,从而可能使得计算机曲解人的意思,而随着Web2.0的发展,基于大规模语料的未登录新词的自动识别和切分,更是成为中文分词的一个主要难点和瓶颈。当前主要利用各种分词软件或分词模型对待处理文本进行分词,而分词软件和分词模型地分词依据是从训练语料训练得到的算法,并继续根据大量预料中词重复出现的频率来发现新词;然而,当待处理文本的数据量较大时,采用现有的新词发现方法,对待分析文本的处理效率较低。
技术实现思路
本专利技术解决的技术问题是在待处理文本的数据量较大时,如何高效地发现待处理文本中的新词。为解决上述技术问题,本专利技术实施例提供一种分布式新词发现方法,包括:获取待处理文本;获取预设分组规则,根据所述预设分组规则对所述待处理文本分组,得到若干组预处理文本;将每组所述预处理文本进行拼接,得到若干个拼接文本;将每个所述拼接文本发送至对应的识别终端,接收各个识别终端根据所述拼接文本得到的预选词;根据所述预选词获取所述待处理文本的发现词。可选的,所述识别终端采用以下方式得到所述预选词:所述识别终端对所述拼接文本进行分词,得到分词中间词,并根据预设剔除规则从所述分词中间词中剔除干扰词,得到所述预选词,计算所述预选词的词频;其中,所述预设剔除规则是根据与待处理文本对应的历史文本的内容设定的;所述接收所述识别终端根据所述拼接文本得到的预选词,包括:接收所述识别终端返回的所述预选词和所述预选词对应的词频。可选的,所述计算所述预选词的词频之后,还包括:将所述预选词按照词频进行排序;所述接收所述识别终端返回的所述预选词和所述预选词对应的词频,包括:接收所述识别终端返回的词频大于预设值的所述预选词和所述预选词对应的词频。可选的,所述识别终端为若干个,所述接收所述识别终端返回的所述预选词和所述预选词对应的词频之后,还包括:识别每个所述识别终端返回的所述预选词,将相同预选词的词频合并;剔除合并后的所述预选词中的冗余词;所述根据所述预选词获取所述待处理文本的发现词,包括:将剔除所述冗余词后的所述预选词作为所述待处理文本的所述发现词。可选的,所述将剔除所述冗余词后的所述预选词作为所述待处理文本的所述发现词之后,还包括:获取所述发现词对应的合并后的词频;删除合并后的词频小于预设值的所述发现词。可选的,所述待处理文本包括若干个文段,所述获取预设分组规则,根据所述预设分组规则对所述待处理文本分组,包括:将所述待处理文本中的每个文段进行排序,得到所述每个文段的序号;将连续的预设数量个文段分为一组,以对所述待处理文本完成分组。可选的,所述获取待处理文本之后,还包括:当所述待处理文本为长文本时,对所述待处理文本进行切分,得到所述待处理文本的若干个文段。本专利技术实施例还提供一种分布式新词发现方法装置,包括:文本获取模块,用于获取待处理文本;分组模块,用于获取预设分组规则,根据所述预设分组规则对所述待处理文本分组,得到若干组预处理文本;拼接模块,用于将每组所述预处理文本进行拼接,得到若干个拼接文本;终端分布模块,用于将每个所述拼接文本发送至一个识别终端,接收所述识别终端根据所述拼接文本得到的预选词;汇总模块,用于根据所述预选词获取所述待处理文本的发现词。本专利技术实施例还提供一种计算机设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述方法的步骤。本专利技术实施例还提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述方法的步骤。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:本专利技术实施例提供一种分布式新词发现方法,包括:获取待处理文本;获取预设分组规则,根据所述预设分组规则对所述待处理文本分组,得到若干组预处理文本;将每组所述预处理文本进行拼接,得到若干个拼接文本;将每个所述拼接文本发送至对应的识别终端,接收各个识别终端根据所述拼接文本得到的预选词;根据所述预选词获取所述待处理文本的发现词。较之现有技术,本专利技术的新词发现方法中,在获取待处理文本后,根据预设分组规则对其分组,并对分组后得到的预处理文本进行拼接,得到用于分派到各识别终端的拼接文本,并将拼接文本按照处理需求分派到对应的识别终端,使得识别终端对拼接文本进行初步的新词发现操作,得到预选词。在汇总各识别终端返回的预选词后,对预选词进行二次处理,最终获取待处理文本中的发现词,完成待处理文本的新词发现操作。通过这一方法,将数据量较大的待处理文本分派到多个识别终端进行分布式处理,有效地提高了从其中发现新词的效率;且对各识别终端返回的预选词进行二次处理,同时提高了新词发现结果的准确性。进一步地,识别终端在接收到服务器分派的拼接文本后,对拼接文本进行分词、剔除分词后的干扰词得到预选词,并计算预选词的词频,实现了对拼接文本的第一次处理;通过多个识别终端的分布式处理,极大地提高了新词发现方法中的数据处理效率。进一步地,每一识别终端在向服务器返回预选词和其词频时,无需将返回所有预选词,而是对词频高于预设值的预选词及其词频进行返回;即仅返回词频较高的预选词。进一步对识别终端获取的预选词进行筛选,有效减少了识别终端到服务器的数据传输量,同时减少了服务器对识别终端返回的预选词进行二次处理时的数据计算量。进一步地,对各拼接文本的预选词集中进行二次处理,进一步提高了待处理文本中新词发现的准确性。进一步地,对待处理文本的每一文段进行排序,并按照序号进行分组,可实现分组后,每组拼接文本数据量的大小相对均匀,即分派到每个识别终端中处理的数据量大致相同,减少各识别终端返回预选词的时间差,从而提高新词发现的识别效率。附图说明图1是本专利技术实施例的一种分布式新词发现方法的应用图;图2是本专利技术实施例的一种分布式新词发现方法的流程图;图3是本专利技术实施例的一种识别终端得到预选词的流程图;图4是本专利技术实施例的一种分布式新词发现装置的结构示意图。具体实施方式如
技术介绍
所言,现有的新词发现方法中,当待处理文本的数据量较大时,从待处理文本中发现新词的效率较低。为解决上述技术问题,本专利技术实施例提供一种分布式新词发现方法,包括:获取待处理文本;获取预设分组规则,根据预设分组规则对待处理文本分组,得到若干组预处理文本;将每组预处理文本进行拼接,得到若干个拼接文本文档来自技高网
...

【技术保护点】
1.一种分布式新词发现方法,其特征在于,所述方法包括:/n获取待处理文本;/n获取预设分组规则,根据所述预设分组规则对所述待处理文本分组,得到若干组预处理文本;/n将每组所述预处理文本进行拼接,得到若干个拼接文本;/n将每个所述拼接文本发送至对应的识别终端,接收各个识别终端根据所述拼接文本得到的预选词;/n根据所述预选词获取所述待处理文本的发现词。/n

【技术特征摘要】
1.一种分布式新词发现方法,其特征在于,所述方法包括:
获取待处理文本;
获取预设分组规则,根据所述预设分组规则对所述待处理文本分组,得到若干组预处理文本;
将每组所述预处理文本进行拼接,得到若干个拼接文本;
将每个所述拼接文本发送至对应的识别终端,接收各个识别终端根据所述拼接文本得到的预选词;
根据所述预选词获取所述待处理文本的发现词。


2.根据权利要求1所述的方法,其特征在于,所述识别终端采用以下方式得到所述预选词:
所述识别终端对所述拼接文本进行分词,得到分词中间词,并根据预设剔除规则从所述分词中间词中剔除干扰词,得到所述预选词,计算所述预选词的词频;其中,所述预设剔除规则是根据与待处理文本对应的历史文本的内容设定的;
所述接收所述识别终端根据所述拼接文本得到的预选词,包括:
接收所述识别终端返回的所述预选词和所述预选词对应的词频。


3.根据权利要求2所述的方法,其特征在于,所述计算所述预选词的词频之后,还包括:
将所述预选词按照词频进行排序;
所述接收所述识别终端返回的所述预选词和所述预选词对应的词频,包括:
接收所述识别终端返回的词频大于预设值的所述预选词和所述预选词对应的词频。


4.根据权利要求3所述的方法,其特征在于,所述识别终端为若干个,所述接收所述识别终端返回的所述预选词和所述预选词对应的词频之后,还包括:
识别每个所述识别终端返回的所述预选词,将相同预选词的词频合并;
剔除合并后的所述预选词中的冗余词;
所述根据所述预选词获取所述待处理文本的发现词,包括:
将剔除所述冗余词后的所述预选词作为所述待处理文本的所述发现词。
...

【专利技术属性】
技术研发人员:汤奇峰宋杭科
申请(专利权)人:上海晶赞融宣科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1