特征词的确定方法、装置和服务器制造方法及图纸

技术编号:21630463 阅读:14 留言:0更新日期:2019-07-17 11:34
本说明书提供了一种特征词的确定方法、装置和服务器。其中,该方法包括:获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,分词库包含多个用于表征预设属性类型的预设特征词;根据更新后的分词库和预设特征词,从文本数据中提取第二特征词。在本说明书实施例中,通过先对文本数据进行新词提取得到第一特征词;再利用第一特征词对分词库进行更新;进而可以利用更新后的分词库和预设特征词从文本数据提取出新的特征词作为第二特征词,从而避免了提取特征词的过程中,由于分词错误导致的特征词提取不准确,达到能精确地从文本数据中挖掘出符合要求的新的特征词的技术效果。

Method, Device and Server for Determining Feature Words

【技术实现步骤摘要】
特征词的确定方法、装置和服务器
本说明书属于互联网
,尤其涉及一种特征词的确定方法、装置和服务器。
技术介绍
在网络交易监管中,常常会通过检索与网络交易相关的数据所携带的文本数据中的特征词(例如能反映某一属性类型的网络交易共性的词组),来确定该交易的属性类型,从而可以有针对性地对某种属性类型的网络交易进行监控管理。例如,可以通过检索识别与网络交易相关的文本数据中是否携带有“上分”、“下分”等黑词(一种表征违法交易的特征词),来判断该交易是否属于违法交易,从而可以及时地发现并处理这类违法交易。基于上述方法来确定网络交易的属性类型时,所使用的特征词是否准确、涵盖的范围是否全面,会对网络交易的属性类型的判断是否准确产生较大的影响。而且随着人们语言习惯、用词方式的改变,对于同一属性类型的网络交易,能够有效表征该属性类型交易共性的特征词也会发生变化。例如,可能会出现一些新的词组成为表征该属性类型交易的特征词。因此,亟需一种能够准确地确定出用于表征网络交易的属性类型的特征词的方法。
技术实现思路
本说明书目的在于提供一种特征词的确定方法、装置和服务器,以避免提取第二特征词的过程中,由于分词错误导致的特征词提取不准确、不全面,达到能精确、高效地从文本数据中挖掘出符合要求的新的特征词的技术效果。本说明书提供的一种特征词的确定方法、装置和服务器是这样实现的:一种特征词的确定方法,包括:获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,所述分词库包含多个用于表征预设属性类型的预设特征词;根据所述更新后的分词库,从所述文本数据中提取第二特征词。一种特征词的确定装置,包括:获取模块,用于获取文本数据;第一提取模块,用于从所述文本数据中提取出第一特征词;更新模块,用于根据所述第一特征词,更新分词库,得到更新后的分词库,其中,所述分词库包含多个用于表征预设属性类型的预设特征词;第二提取模块,用于根据所述更新后的分词库,从所述文本数据中提取第二特征词。一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,所述分词库包含多个用于表征预设属性类型的预设特征词;根据所述更新后的分词库,从所述文本数据中提取第二特征词。一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,所述分词库包含多个用于表征预设属性类型的预设特征词;根据所述更新后的分词库,从所述文本数据中提取第二特征词。本说明书提供的一种特征词的确定方法、装置和服务器,通过先对文本数据进行新词提取得到第一特征词;再利用第一特征词对分词库进行更新;进而利用更新后的分词库和预设特征词从文本数据提取出新的特征词作为第二特征词,从而避免了提取特征词过程中,由于分词错误导致的特征词提取不准确、不全面,达到能精确地从文本数据中挖掘出符合要求的新的特征词的技术效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是在一个场景示例中,应用本说明书实施例提供的特征的确定方法的一种实施例的示意图;图2是在一个场景示例中,应用本说明书实施例提供的特征的确定方法的一种实施例的示意图;图3是在一个场景示例中,应用本说明书实施例提供的特征的确定方法的一种实施例的示意图;图4是在一个场景示例中,应用本说明书实施例提供的特征的确定方法的一种实施例的示意图;图5是本说明书实施例提供的特征词的确定方法的流程的一种实施例的示意图;图6是本说明书实施例提供的服务器的结构的一种实施例的示意图;图7是本说明书实施例提供的特征词的确定装置的结构的一种实施例的示意图。具体实施方式为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。考虑到现有的特征词的确定方法通常是先直接对所采集的文本数据进行分词处理;再通过深度学习算法得到分词的向量;继而通过语义向量距离和PageRank等方法计算分词的向量与已有特征词之间的向量距离;最后根据向量距离确定出新的特征词。然而,在互联网领域,使用的词组、短语的变化速度相对较快。例如,可能每隔一两天互联网上就会出现大量之前没有出现过的新的词语。但上述方法具体实施时,并没有考虑到类似新词的影响,导致在分词处理过程容易将新词组合错误地进行拆分,以致后续无法得到新词真正的向量,难以挖掘出新的特征词。针对上述情况,本说明书考虑可以将新词的发现与特征词的确定相结合。具体的,可以先对所采集的文本数据进行新词挖掘,提取得到文本数据中的新词作为第一特征词;再根据第一特征词更新包含有已有的预设特征词的分词词库;通过更新后的分词词库对文本数据进行分词处理,再结合预设特征词,根据分词结果的向量确定出新的特征词,即挖掘出了第二特征词。从而避免了现有方法在提取特征词的过程中,由于分词错误导致的特征词提取不准确,达到能精确地从文本数据中挖掘出符合要求的新的特征词的技术效果。本说明书实施方式提供一种可以应用本说明书提供的特征词的确定方法的系统架构中。其中,该系统中具体可以包括服务器,且该服务器可以与网络平台的业务系统对接,进而可以采集得到网络平台上的文本数据;再从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库;通过所述更新后的分词库和所述预设特征词,从所述文本数据中提取第二特征词,即挖掘出新的特征词。在本实施方式中,所述服务器可以为一种应用于后台的,能够实现数据获取、数据处理等功能的服务器。具体的,所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施方式中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。在一个场景示例中,可以参阅图1所示,可以应用本说明书实施例提供的特征词的确定方法对在某交易网络平台上采集得到的相关文本数据进行具体分析处理,从中提取得到能够用于表征非法交易的新的特征词,以便后续可以根据上述新的特征词,及时地发现交易网络平台上的非法交易,并及时进行监控处理。在本场景示例中,具体实施时,参阅图2所示,服务器可以先搜集该交易网络平台上最近一周的网络交易数据(例如转账数据)中所携带的交易附言等作为文本数据。其中,上述交易网络平台具体可以是一种以中文为主要语言的购物网站、理财网站、支付平台等,相应的本文档来自技高网
...

【技术保护点】
1.一种特征词的确定方法,包括:获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,所述分词库包含多个用于表征预设属性类型的预设特征词;根据所述更新后的分词库,从所述文本数据中提取第二特征词。

【技术特征摘要】
1.一种特征词的确定方法,包括:获取文本数据;从所述文本数据中提取出第一特征词;根据所述第一特征词,更新分词库,得到更新后的分词库,其中,所述分词库包含多个用于表征预设属性类型的预设特征词;根据所述更新后的分词库,从所述文本数据中提取第二特征词。2.根据权利要求1所述的方法,所述文本数据包括:交易附言,和/或,文本标签。3.根据权利要求1所述的方法,从所述文本数据中提取出第一特征词,包括:从所述文本数据中筛选出字符长度小于预设长度阈值的字符串作为候选字符串;计算所述候选字符串的指标参数;根据所述指标参数,从所述候选字符串中提取符合第一预设要求的候选字符串,作为第一特征词。4.根据权利要求3所述的方法,所述指标参数包括以下至少之一:凝固度、信息熵和频数。5.根据权利要求3所述的方法,在从所述文本数据中筛选出字符长度小于预设长度阈值的字符串作为候选字符串之前,所述方法还包括:过滤所述文本数据中的无效字符串。6.根据权利要求1所述的方法,根据所述更新后的分词库,从所述文本数据中提取第二特征词,包括:根据所述更新后的分词库,对所述文本数据进行分词处理,得到多个分词单元;对所述多个分词单元分别进行词向量化处理,得到分词单元的词向量;根据所述分词单元的词向量和预设特征词的词向量,从所述多个分词单元中确定符合第二预设要求的分词单元,作为所述第二特征词。7.根据权利要求6所述的方法,对所述多个分词单元分别进行词向量化处理,得到分词单元的词向量,包括:将分词单元中的汉字拆分为多个笔画;根据所述分词单元的多个笔画,建立分词单元的笔画向量;获取文本数据中与所述分词单元相连的词语,作为上下文词语;获取所述上下文词语的词向量;根据所述分词单元的笔画向量和所述上下文词语的词向量,确定所述分词单元的词向量。8.根据权利要求6所述的方法,根据所述分词单元的词向量和预设特征词的词向量,从所述多个分词单元中确定符合第二预设要求的分词单元,作为所述第二特征词,包括:从多个预设特征词中提取预设数量的预设特征词作为测试词;根据所述多个预设特征词中除测试词以外的预设特征词的词向量,建立标记样本集;根据所述测试词的词向量和所述分词单元的词向量,建立非标记样本集;根据所述标记样本集和非标记样本集,通过迭代拟合,确定拟合分数阈值;根据所述拟合分数阈值,从所述分词单元中确定出符合第二预设要求的分词单元,作为所述第二特征词。9.根据权利要求6所述的方法,在根据所述分词单元的词向量和预设特征词的词向量,从所述多个分词单元中确定符合第二预设要求的分词单元,作为所述第二特征词前,所述方法还包括:过滤所述分词单元的词向量中的停用词的词向量。10.一种特征词的确定装置,包括:获取模块,用于获取文本数据;第一提取模块,用于从所述文本数据中提取出第一特征词;更新模块,用于根据所...

【专利技术属性】
技术研发人员:李怀松潘健民周绪刚
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1