The present invention provides a synonym mining method, device, equipment and computer readable storage medium, which involves the field of machine language. Including the synonym mining method: obtaining the synonym candidate resource set synonym candidate resource set includes a plurality of machine context information data; synonym recognition candidate resources on each machine has the characteristics of data, according to the dictionary word presupposition, extracting feature word context information for each machine data in a text analysis; the machine has the same characteristics of the data word synonym candidate resources, get synonym set, including synonym synonym set has at least two machine data with the same feature word. Using the technical scheme of this invention can realize the mining of synonyms in the machine language environment.
【技术实现步骤摘要】
同义词挖掘方法、装置、设备和计算机可读存储介质
本专利技术涉及机器语言领域,尤其涉及一种同义词挖掘方法、装置、设备和计算机可读存储介质。
技术介绍
在工作、学习或生活等方面,人们常使用搜索引擎技术来搜索自己想要查询的内容。搜索引擎根据用户的输入,为用户搜索与输入相关的内容。由于地区或文化水平等方面的差异,用户的输入可能会与一部分相关内容中的描述不相同。为了能够为用户搜索到更多的相关内容,搜索引擎需要挖掘出与用户的输入对应的同义词,从而在用户的输入和与用户的输入对应的同义词的基础上进行搜索。在机器语言的环境中,用户有时也需要在机器语言编写的数据中进行搜索。由于在软件开发过程中,不同开发人员负责不同模块的开发,或者,不同模块语言模式的设置不同,使得表示同样意思的词或词组在不同的机器数据中的写法不同。为了能够提供更多与用户的搜索意图匹配的内容,也需要挖掘用户的搜索意图的同义词。但是,由于现有的同义词挖掘方法适用于自然语言,而机器语言与自然语言的差异较大,现有的同义词挖掘方法并不适用于机器语言环境。因此,目前急需一种适用于机器语言环境的同义词挖掘方法。
技术实现思路
本申请提 ...
【技术保护点】
一种同义词挖掘方法,其特征在于,包括:获取同义词候选资源集,所述同义词候选资源集包括多条机器数据;识别所述同义词候选资源集中每条机器数据具有的上下文信息,根据预设的特征词词典,提取每条机器数据的上下文信息中的特征词;对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析,得到同义词集合,所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。
【技术特征摘要】
1.一种同义词挖掘方法,其特征在于,包括:获取同义词候选资源集,所述同义词候选资源集包括多条机器数据;识别所述同义词候选资源集中每条机器数据具有的上下文信息,根据预设的特征词词典,提取每条机器数据的上下文信息中的特征词;对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析,得到同义词集合,所述同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。2.根据权利要求1所述的方法,其特征在于,所述获取同义词候选资源集,包括:按照预设的符号集中的符号,将每条机器数据划分为至少一个数据颗粒,所述机器数据包括所述符号集中的至少一个符号,所述数据颗粒包括至少一个词语;识别每个所述数据颗粒中的对象标识,所述对象标识被所述符号标记;依据所述对象标识的组成模式,计算所述对象标识的随机性概率;将所述对象标识相同,且所述对象标识的随机性概率小于或等于预设概率阈值的多条机器数据,作为同义词候选资源集。3.根据权利要求2所述的方法,其特征在于,所述识别所述同义词候选资源集中每条机器数据具有的上下文信息,根据预设的特征词词典,提取每条机器数据的上下文信息中的特征词,包括:查找每个所述数据颗粒中的非对象标识,如果所述数据颗粒具有非对象标识,获取所述数据颗粒所在机器数据的上下文信息,获取的上下文信息包括所述数据颗粒、在所述数据颗粒所在机器数据的时间戳与所述数据颗粒之间的数据,查找所述获取的上下文信息中与所述特征词词典匹配的词语,查找到的词语为所述特征词。4.根据权利要求2或3所述的方法,其特征在于,所述对所述同义词候选资源集中具有相同特征词的多条机器数据进行文本分析,得到同义词集合,包括:按照预设的符号集中的符号,在所述同义词候选资源集中具有相同特征词的多条所述机器数据内,查找相同的所述对象标识对应的词语,组成同义词集合;和/或,按照预设的符号集中的符号和所述机器数据中词语的词性,在所述同义词候选资源集中具有相同特征词的多条所述机器数据内,查找相同的所述对象标识对应的词组,组成同义词集合。5.根据权利要求2所述的方法,其特征在于,所述同义词候选资源集中的所述机器数据的时间戳之间的时间间隔在预设的时长范围内。6.根据权利要求5所述的方法,其特征在于,所述同义词候选资源集包括两条所述机器数据,且两条所述机器数据的时间戳相邻;所述方法还包括:获取包含相同特征词的多个所述同义词候选资源集对应的同义词集合,合并获取的同义词集合。7.根据权利要求1所述的方法,其特征在于,在所述获取同义词候选资源集之前,还包括:采集得到时间戳距离当前时刻预设时间长度内的所述机器数据。8.一种同义词挖掘装置,其特征在于,包括:资源集获取单元,被配置为获取同义词候选资源集,所述同义词候选资源集包括多条机器数据;特征词提取单元,被配置为识别所述同义词候选资源集中每条机器数据具有的上...
【专利技术属性】
技术研发人员:周文礼,张二磊,王娜敏,刘杰,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。