本申请提供一种语句选词方法及装置,其中所述语句选词方法包括:获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词,本申请提供的语句选词方法结合候选词的释义和用法,解决了近义词难以区分的问题,提高了词语推荐的准确率。
A method and device of sentence word selection
【技术实现步骤摘要】
一种语句选词方法及装置
本申请涉及计算机
,特别涉及一种语句选词方法及装置、计算设备和计算机可读存储介质。
技术介绍
随着计算机技术的发展,语句选词得到了越来越广泛的应用,如在写作过程中,合理运用成语尤其能极大提高文章的表达效果,通过文章上下文在候选成语中选择合适的成语供用用户选择,为用户写作提供便利。在目前的语句选词过程中,通过成语推荐将文章上下文和候选成语的语义信息相匹配提供较合适的词语供用户选择,在成语的语义信息方面,成语的释义是成语推荐的基本信息,然而近义词或同义词虽然在释义上相似,但是在用法上仍然是有区别的,仅基于成语释义的成语推荐方法难以区分近义词或同义词,在成语推荐时仅基于释义难以区分使用哪个成语更优,当候选词中有近义词或同义词时,还是无法推荐更优的成语,使得表述不够准确。因此,如何解决上述问题,使推荐的成语更贴近文章上下文,就成为目前亟待解决的问题。
技术实现思路
有鉴于此,本申请实施例提供了一种语句选词方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种语句选词方法,包括:获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。可选的,根据所述待选词语句获取所述待选词语句的待选词语句向量,包括:对所述待选词语句做分词处理,获得所述待选词语句的词单元集合;对所述待选词语句的词单元集合中的词单元做嵌入化处理,获得所述待选词语句的词向量集合;对所述待选词语句的词向量集合中的词向量做池化处理获得所述待选词语句的待选词语句向量。可选的,对于任意一个所述候选词;获取每个候选词的释义语句和用法语句集合,包括:在预设的语料库中获取所述候选词的释义语句和至少一个用法语句。可选的,在预设的语料库中获取所述候选词的至少一个用法语句,包括:在预设的语料库中获取预设数量的所述候选词的候选词上下文语句;利用占位符替换每个候选词上下文语句中的所述候选词,将每个替换后的候选词上下文语句作为所述候选词的用法语句。可选的,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量,包括:根据所述候选词的释义语句获取所述候选词的释义语句向量;根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量;根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量。可选的,根据所述候选词的释义语句获取所述候选词的释义语句向量,包括:对所述候选词的释义语句做分词处理,获得所述候选词的释义语句词单元集合;对所述释义语句词单元集合中的词单元做嵌入化处理获得释义语句词向量集合;对所述释义语句词向量集合中的词向量做池化处理获得所述候选词的释义语句向量。可选的,根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量,包括:对所述候选词的每个用法语句分别做嵌入化处理获得所述候选词的用法语句子向量集合;对所述用法语句子向量集合中的用法语句子向量做池化处理获得所述候选词的用法语句向量。可选的,根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量,包括:对所述候选词的释义语句向量和用法语句向量做池化处理获得所述候选词的释义用法向量。根据本申请实施例的第二方面,提供了一种语句选词装置,包括:第一获取模块,被配置为获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;第二获取模块,被配置为根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;确定模块,被配置为确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;选取模块,被配置为选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述语句选词方法的步骤。根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述语句选词方法的步骤。根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述语句选词方法的步骤。本申请实施例中,通过获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词,本申请提供的语句选词方法结合候选词的释义和用法,解决了近义词难以区分的问题,提高了词语推荐的准确率。附图说明图1是本申请实施例提供的计算设备的结构框图;图2是本申请实施例提供的语句选词方法的流程图;图3是本申请另一实施例提供的语句选词方法的流程图;图4是本申请实施例提供的语句选词装置的结构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。待选词语句:需要在候选词中选择合适的词语填入的语句。候选词:为待选词语本文档来自技高网...
【技术保护点】
1.一种语句选词方法,其特征在于,包括:/n获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;/n根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;/n确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;/n选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。/n
【技术特征摘要】
1.一种语句选词方法,其特征在于,包括:
获取待选词语句和所述待选词语句对应的至少两个候选词,并获取每个候选词的释义语句和用法语句集合;
根据所述待选词语句获取待选词语句向量,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量;
确定每个候选词的释义用法语句向量与所述待选词语句向量的向量相似度;
选取向量相似度最大的释义用法向量对应的候选词作为所述待选词语句的目标词。
2.如权利要求1所述的语句选词方法,其特征在于,根据所述待选词语句获取所述待选词语句的待选词语句向量,包括:
对所述待选词语句做分词处理,获得所述待选词语句的词单元集合;
对所述待选词语句的词单元集合中的词单元做嵌入化处理,获得所述待选词语句的词向量集合;
对所述待选词语句的词向量集合中的词向量做池化处理获得所述待选词语句的待选词语句向量。
3.如权利要求1所述的语句选词方法,其特征在于,对于任意一个所述候选词;
获取每个候选词的释义语句和用法语句集合,包括:
在预设的语料库中获取所述候选词的释义语句和至少一个用法语句。
4.如权利要求3所述的语句选词方法,其特征在于,在预设的语料库中获取所述候选词的至少一个用法语句,包括:
在预设的语料库中获取预设数量的所述候选词的候选词上下文语句;
利用占位符替换每个候选词上下文语句中的所述候选词,将每个替换后的候选词上下文语句作为所述候选词的用法语句。
5.如权利要求3所述的语句选词方法,其特征在于,根据每个候选词的释义语句和用法语句集合获取每个候选词的释义用法语句向量,包括:
根据所述候选词的释义语句获取所述候选词的释义语句向量;
根据所述候选词的至少一个用法语句获取所述候选词的用法语句向量;
根据所述候选词的释义语句向量和用法语句向量获取所述候选词的释义用法向量。
6.如权利要求5所述...
【专利技术属性】
技术研发人员:李长亮,汪美玲,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。