一种智能设备及有效语义词提取方法技术

技术编号:34186593 阅读:15 留言:0更新日期:2022-07-17 14:23
本申请提供一种智能设备及有效语义词提取方法,所述智能设备包括存储模块和处理模块,所述处理模块被配置为获取待提取文本;对待提取文本进行分词,以获得词语集合,所述词语集合中包括多个语义词;使用通用标记替换所述词语集合中的语义词,以生成标注文本集;将所述待提取文本与所述标注文本集输入语义提取模型;获取所述语义提取模型输出的语义相似度,根据相似阈值过滤所述词语集合中的语义词,以获得有效语义词。本申请能从用户的查询文本中提取出影响语义理解的关键语义词汇,帮助搜索引擎更好的理解用户意图,从而能够帮助智能设备给出准确的搜索结果,提升用户体验。提升用户体验。提升用户体验。

【技术实现步骤摘要】
一种智能设备及有效语义词提取方法


[0001]本申请涉及自然语言处理
,尤其涉及一种智能设备及有效语义词提取方法。

技术介绍

[0002]自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。
[0003]在智能设备消费领域,消费者的查询说法偏向于口语化,且查询说法包含较多的个人习惯和地域习惯,例如山东人喜欢用倒装句查询等。当下的消费者意图理解一般是直接基于用户查询的语句进行分析,部分厂商也会使用融合业务词性的分类算法,但是当用户的查询说法中无意义词或多义词较多时这种分类方法常常会分类错误。在智能设备搜索领域,由于各个搜索目标标题的多样化和网络化,标题内容中充满了杂乱的自构词、夸张词汇等无意义词,严重影响搜索的准确率和效率。智能设备搜索领域当下采用的比较流行的方法,还是直接将用户查询和搜索目标标题进行内容匹配,然后给出得分最高的一些内容。其主要原因是一方面无法有效的分析出用户查询或标题中的有意义词汇,另一方面是覆盖范围广的训练数据搜集较为困难。

技术实现思路

[0004]本申请提供了一种智能设备及有效语义词提取方法,以解决现有的智能设备搜索方法无法有效的分析出用户查询或标题中的有意义词汇的问题。
[0005]一方面,本申请提供一种智能设备,包括:
[0006]存储模块,被配置为存储语义提取模型;
[0007]处理模块,被配置为:
[0008]获取待提取文本;
[0009]对待提取文本进行分词,以获得词语集合,所述词语集合中包括多个语义词;
[0010]使用通用标记替换所述词语集合中的语义词,以生成标注文本集;
[0011]将所述待提取文本与所述标注文本集输入语义提取模型,其中,所述语义提取模型由训练样本集以及标注样本集训练生成,所述训练样本集包括带有语义标签的训练语句;所述标注样本集包括带有标注概率的标注样本语句,所述标注样本语句是将所述训练语句中的关键词替换为通用标记所形成的语句;
[0012]获取所述语义提取模型输出的语义相似度,根据相似阈值过滤所述词语集合中的
语义词,以获得有效语义词。
[0013]另一方面,本申请还提供一种有效语义词提取方法,包括以下步骤:
[0014]获取待提取文本;
[0015]对待提取文本进行分词,以获得词语集合,所述词语集合中包括多个语义词;
[0016]使用通用标记替换所述词语集合中的语义词,以生成标注文本集;
[0017]将所述待提取文本与所述标注文本集输入语义提取模型,其中,所述语义提取模型由训练样本集以及标注样本集训练生成,所述训练样本集包括带有语义标签的训练语句;所述标注样本集包括带有标注概率的标注样本语句,所述标注样本语句是将所述训练语句中的关键词替换为通用标记所形成的语句;
[0018]获取所述语义提取模型输出的语义相似度,根据相似阈值过滤所述词语集合中的语义词,以获得有效语义词。
[0019]由以上技术方案可知,本申请提供的一种智能设备及有效语义词提取方法,所述智能设备包括存储模块和处理模块,处理模块被配置为获取待提取文本;对待提取文本进行分词,以获得词语集合,所述词语集合中包括多个语义词;使用通用标记替换所述词语集合中的语义词,以生成标注文本集;将所述待提取文本与所述标注文本集输入语义提取模型,其中,所述语义提取模型由训练样本集以及标注样本集训练生成,所述训练样本集包括带有语义标签的训练语句;所述标注样本集包括带有标注概率的标注样本语句,所述标注样本语句是将所述训练语句中的关键词替换为通用标记所形成的语句;获取所述语义提取模型输出的语义相似度,根据相似阈值过滤所述词语集合中的语义词,以获得有效语义词。本申请能从用户的查询文本中提取出影响语义理解的关键语义词汇,帮助搜索引擎更好的理解用户意图,从而能够帮助智能设备给出准确的搜索结果,提升用户体验。
附图说明
[0020]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本申请实施例中智能设备处理流程示意图;
[0022]图2为本申请实施例中模型训练流程示意图;
[0023]图3为本申请实施例中语义提取模型示意图;
[0024]图4为本申请实施例中获得待提取文本流程示意图;
[0025]图5为本申请实施例中分词流程示意图;
[0026]图6为本申请实施例中生成标注文本集流程示意图;
[0027]图7为本申请实施例中获得标签分类结果流程示意图;
[0028]图8为本申请实施例中阈值过滤流程示意图。
具体实施方式
[0029]下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的
一些方面相一致的系统和方法的示例。
[0030]在本申请实施例中,所述语义提取方法可以应用于具有数据处理功能,且具有语义提取需求的智能设备中。所述智能设备包括但不限于:计算机、智能终端、智能电视、智能可穿戴设备、智能显示设备、服务器等。所述智能设备可以内置或外接存储模块,并提供处理模块,以形成能够执行所述文本分类方法的文本分类系统。
[0031]在本申请实施例中,所述智能设备可以是智能电视设备,智能电视设备内置存储器和控制器,其中,存储器可以用于存储文本、自然语言处理模型、控制程序等数据。控制器则可以从存储器中调用数据,并通过运行控制程序对调用的数据执行处理。
[0032]本申请的应用场景为智能设备搜索领域,可从用户的查询文本中提取出影响语义理解的关键语义词汇,帮助搜索引擎更好的理解用户意图,从而帮助智能设备给出准确的答复,提升用户体验。另一方面由于当前搜索目标数据的标题名称各种各样,通过有效语义词的提取,更容易帮助检索系统检索到用户感兴趣的内容。
[0033]如图1所示为本申请实施例中智能设备处理流程示意图,在本申请实施例中,自然语言处理可包括两个阶段,即模型训练阶段和语义提取阶段。在模型训练阶段,处理模块可以从网络或其他途径获取训练样本数据,再将训练样本数据输入初始语义模型进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能设备,其特征在于,包括:存储模块,被配置为存储语义提取模型;处理模块,被配置为:获取待提取文本;对待提取文本进行分词,以获得词语集合,所述词语集合中包括多个语义词;使用通用标记替换所述词语集合中的语义词,以生成标注文本集;将所述待提取文本与所述标注文本集输入语义提取模型,其中,所述语义提取模型由训练样本集以及标注样本集训练生成,所述训练样本集包括带有语义标签的训练语句;所述标注样本集包括带有标注概率的标注样本语句,所述标注样本语句是将所述训练语句中的关键词替换为通用标记所形成的语句;获取所述语义提取模型输出的语义相似度,根据相似阈值过滤所述词语集合中的语义词,以获得有效语义词。2.根据权利要求1所述的智能设备,其特征在于,所述处理模块被配置为:在所述对待提取文本进行分词的步骤中,调用分词工具;将所述待提取文本输入所述分词工具,以从所述待提取文本划分为多个语义词,形成所述词语集合。3.根据权利要求1所述的智能设备,其特征在于,所述处理模块被配置为:使用通用标记替换所述词语集合中的语义词,以生成标注文本集的步骤中,遍历所述词语集合中的语义词;依次使用通用标记替换所述词语集合中的一个语义词,以在每次替换语义词的过程中获得标注文本语句,所述标注文本语句中包括通用标记以及所述词语集合中未被通用标记替换的语义词,为所述标注文本语句设置标注概率;将每次替换语义词过程中生成的标注文本语句组合,以构成所述标注文本集。4.根据权利要求3所述的智能设备,其特征在于,所述处理模块被配置为:获取所述语义提取模型输出的语义相似度的步骤中,获取所述语义提取模型对所述待提取文本和每个所述标注文本语句中被通用标记替换的语义词输出的语义相似度;按照所述语义相似度由大到小的顺序对每个所述标注文本语句中被通用标记替换的语义词排序,以获得语义排序结果;根据所述语义排序结果在所述词语集合中筛选有效语义词。5.根据权利要求4所述的智能设备,其特征在于,所述处理模块被配置为:根据所述语义排序结果在所述词语集合中的筛选有效语义词的步骤中,设置过滤阈值;对比每个所述标注文本语句中被通用标记替换的语义词的语义相似度与所述过滤阈值...

【专利技术属性】
技术研发人员:李俊彦
申请(专利权)人:海信电子科技武汉有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1