【技术实现步骤摘要】
本专利技术涉及一种搜索信息排序方法,具体涉及一种基于仿真特定领域的仿真信息 自动排序方法,属于计算机建模与仿真领域领域。
技术介绍
美国国防部DoD在制定建模与仿真主计划MSMP时就提出了构建建模与仿真资源 库系统 MSRR(Modeling & Simulation Resource Repository)计划,其目的就是要提供建 模与仿真应用中资源管理、访问、浏览和检索的工具,提高建模与仿真资源的重用性和共享 性,增进系统开发的效率和可靠性。美国现有的MSRR系统由DMS0、联合C4ISR决策支持中 心、美国陆军、美国空军等7家相关机构的节点组成,以模型和仿真应用资源为核心。对于仿真资源用户来说,通常关心的是仿真领域相关的仿真信息、文档等,但是通 用的检索或搜索引擎中的排序方法并没有考虑到其应用领域的特点,一方面,通用的排序 方法中采用通用词库来实现排序过程中的分词工作,它缺乏仿真领域的专有名词,这些名 词就会被分割成普通的词汇,并不符合仿真领域的需求;另一方面,目前的排序过程中没有 考虑到与仿真应用的相关度,通常返回给用户的结果多半是与仿真领域无关 ...
【技术保护点】
一种基于仿真特定领域的仿真信息自动排序方法,其特征在于,包括以下步骤:一、基于仿真资源的特点,定义仿真领域的仿真因子W↓[f],并基于W↓[f]定义文件的重要因子和分割的重要因子:W↓[f]=μ↓[f]×*W↓[j]/l↓[f]公式(1)其中,l↓[f]表示分割(Division)中文本的长度,μ↓[f]表示分割的加权系数,如表1所示:表1分割权重分配表***W↓[j]是某个分割中词j的权重,定义如下:W↓[j]=coe×T↓[jf]公式(2)其中coe为词的类别系数,coe的取值要根据该词在仿真领域专业词库中的权重分配表中的位置来确定,仿真领域专业词库权重分配表如表2所示 ...
【技术特征摘要】
一种基于仿真特定领域的仿真信息自动排序方法,其特征在于,包括以下步骤一、基于仿真资源的特点,定义仿真领域的仿真因子Wf,并基于Wf定义文件的重要因子和分割的重要因子 <mrow><msub> <mi>W</mi> <mi>f</mi></msub><mo>=</mo><msub> <mi>μ</mi> <mi>f</mi></msub><mo>×</mo><mfrac> <mrow><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>m</mi></munderover><msub> <mi>W</mi> <mi>j</mi></msub> </mrow> <msub><mi>l</mi><mi>f</mi> </msub></mfrac> </mrow>公式(1)其中,lf表示分割(Division)中文本的长度,μf表示分割的加权系数,如表1所示表1分割权重分配表Wj是某个分割中词j的权重,定义如下Wj=coe×Tjf公式(2)其中coe为词的类别系数,coe的取值要根据该词在仿真领域专业词库中的权重分配表中的位置来确定,仿真领域专业词库权重分配表如表2所示;Tjf表示词j在分割中出现的次数;m为分割中包含的词的个数;表2仿真领域专业词库权重分配表分割的重要因子division.boost和文件的重要因子file.boost的定义分别如下division.boost=Wf 公式(3) <mrow><mi>file</mi><mo>.</mo><mi>boost</mi><mo>=</mo><msub> <mi>log</mi> <mn>2</mn></msub><mrow> <mo>(</mo> <munderover><mi>Σ</mi><mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn></mrow><mi>n</mi> </munderover> <mi>div</mi> <mi>ision</mi> <mo>.</mo> <msub><mi>boost</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow>公式(4)其中,file.boost表示一个文件的重要因子,而division.boosti表示文件中第i个分割的重要因子,n表示此文件共包含n个分割;二、在通用中文词库基础上,增加一个仿真领域的专有名词词库,并根据这两个词库将待排序文档分割为若干个与排序有关的相关词;三、计算每个待排序文档的相关性,具体步骤为(1)将文件划分为不同的分割,包括标题区(Title)、摘要区(Abstract)、主体区(Body),针对文件每一个分割建立相对应的分割字符集,分割字符集是当前文件分割包含的相关词和查询式对应分割包含的相关词的并集;(2)获得待排序文档每个分割的相关度序列s和对应的要查询的文件分割的相关度序列q,设分割对应的分割字符集包含的相关词的数目为n,则s和q的长度均为n,即s=(x1x2x3.....xn),q=(y1y2y3....yn),序列中的每一位用0或者1表示文件信息的状态,如果文件分割不包含分割字符集当前位置的词,则取值0,如文件分割包含字符集里的对应的分量,产生(0,1.5*Tjf)范围内的随机数,如果该数落在(0,Wi)中,取值1,否则取值0;其中Wi为分割字符集当前位置的词的权重;(3)通过以下公式计算待排序文档每个分割的相关度 <mrow><msub> <mi>S</mi> <mi>rk</mi></msub><mrow> <mo>(</mo> <msub><mi>s</mi><mi>k</mi> </msub> <mo>,</mo> <mi>q</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>div</mi><mi>ision</mi><mo>.</mo><msub> <mi>boost</mi...
【专利技术属性】
技术研发人员:宿红毅,郑宏,闫波,柳寒冰,沈宇恒,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。