【技术实现步骤摘要】
自然语言语义理解方法及装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种自然语言语义理解方法及装置。
技术介绍
[0002]语义理解在信息检索领域有着广泛应用,特别是网页检索对语义理解的智能化程度极其重要,决定了是否能满足用户利用搜索语段找到目标网页。
[0003]目前基于网页检索中的语言理解主要使用文本相似度计算方法,即遍历出所有与搜索语段相关的目标网页,通过计算目标网页中的网页语段与搜索语段的相似度达到理解搜索语段的目的。
[0004]上述方法虽然可实现语义理解,但由于未考虑网页语段和搜索语段不同词性对搜素结果的影响,从而所匹配出的搜索网页准确率有待进一步提高。
技术实现思路
[0005]本专利技术提供一种自然语言语义理解方法、计算机可读存储介质,其主要目的在于解决未考虑用户输入的搜索语段与网页语段的词性而导致语义理解准确率不高的问题。
[0006]为实现上述目的,本专利技术提供的一种自然语言语义理解方法,包括:
[0007]接收用户输入的搜索语段,对所述搜 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言语义理解方法,其特征在于,所述方法包括:接收用户输入的搜索语段,对所述搜索语段执行关键词提取,得到关键词集,搜索与所述关键词集具有相同语义的词语,得到同义词集;搜索出现所述同义词集的网页,得到相似网页集,计算所述同义词集在每个相似网页的出现概率,并剔除出现概率小于阈值概率的相似网页,得到高频网页集,出现概率的计算方法为:p
j
(w1,w2,
…
,w
h
)=p(w1)p(w2∣w1)p(w3∣w1,w2)
…
p(w
n
∣w1,w2…
w
n
‑1)其中,(w1,w2,
…
,w
n
)表示同义词集的词向量组的每个词向量,p
j
(w1,w2,
…
,w
n
)表示同义词集在第j个相似网页的出现概率,∣表示条件概率;从每个高频网页中提取出所有的网页语段,构建每组网页语段与同义词集的特征矩阵:N1=(w1,w2,
…
,w
n
)N
i
=(w
i1
,w
i2
,
…
,w
im
)其中,N
1i
表示同义词集与第i组网页语段构建的特征矩阵,N1为所述同义词集对应的词向量组,n为同义词集对应的词向量组的维度,N
i
为第i组网页语段对应的词向量组,m为第i组网页语段的词向量组的维度;将所述特征矩阵按照词性对应原则执行拆分,得到多组词性矩阵,所述拆分包括:所述将所述特征矩阵按照词性对应原则执行拆分,得到多组词性矩阵,包括:构建名词空矩阵、动词空矩阵、形容词空矩阵、数词空矩阵和代词空矩阵;遍历出所述特征矩阵中每个矩阵元素,其中每个矩阵元素均由同义词集的词向量和网页语段的词向量组成;剔除同义词集的词向量和网页语段的词向量的词性不同的矩阵元素后,判断每个矩阵元素所属于的词性类别;根据词性类别依次将矩阵元素填写至名词空矩阵、动词空矩阵、形容词空矩阵、数词空矩阵和代词空矩阵中的其中一个,直至遍历完所有的矩阵元素,得到名词矩阵、动词矩阵、形容词矩阵、数词矩阵和代词矩阵共五组词性矩阵;依次计算每组词性矩阵内每个矩阵元素的相似度,并根据每个矩阵元素的相似度计算每组词性矩阵的离散程度值;设置每个词性矩阵的权重,相加每个词性矩阵的权重及离散程度值得到高频网页集中每个高频网页的总离散值,根据总离散值的大小对所述高频网页集执行排序,得到与所述搜索语段对应的搜索网页。2.如权利要求1所述的自然语言语义理解方法,其特征在于,所述p(w
n
∣w1,w2…
w
n
‑1)的计算方法为:
其中,C(web,w1,w2…
w
n
‑1)表示w1,w2…
w
n
‑1各个词向量在相似网页web中的出现次数,C(web,s)表示(w1,w2,
…
,w
n
)相似网页web中的出现次数,s表示(w1,w2,
…
,w
n
)。3.如权利要求2所述的自然语言语义理解方法,其特征在于,所述从每个高频网页中提取出所有的网页语段,构建每组网页语段与同义词集的特征矩阵,包括:利用Word2Vec算法并按照每个网页语段在对应的高频网页的出现顺序构建词向量组;将网页语段的词向量组与同义词集的词向量组执行阶乘,得到所述特征矩阵。4.如权利要求3所述的自然语言语义理解方法,其特征在于,所述依次计算每组词性矩阵内每个矩阵元素的相似度,包括:按照从左到右、从上到下的原则,依次遍历出每组词性矩阵的每个矩阵元素,其中每个矩阵元素均由w
i
w
ij
类型组成;计算w
i
w
ij
的相似度,其中相似度的计算方法为:其中,dis表示相似度,w
i
*w
ij
表示w
i
与w
ij
的内积,(w
i
)2及(w
ij
)2均表示词向量的模的积。5.如权利要求4所述的自然语言语义理解方法,其特征在于,所述根据每个矩阵元素的相似度计算每组词性矩阵的离散程度值,包括:将每组词性矩阵所对应的所有的矩阵元素的相似度按照从大到小排列,得到排序相似度集;从所述排序相似度集中提取末尾25%的相似度值及靠前25%的相似度值;根据末尾25%的相似度值及靠前25%的相似度值计算对应的词性矩阵的离散程度值:Q
r
=Q3‑
Q
11
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。