当前位置:首页 > 黑客技术 > 正文内容

搜索引擎入门(4)—查询结果排序

访客6年前 (2019-10-15)黑客技术979

TF-IDF

TF(词频)-IDF(逆文档频率) 在自动提取文章关键词上经常用到,通过它可以知道某个关键字在这篇文档里的重要程度。其中 TF 表示某个 Term 在 Document 里出现的频次,越高说明越重要;DF 表示在全部 Document 里,共有多少个 Document 出现了这个词,DF 越大,说明这个词很常见,并不重要,越小反而说明他越重要,IDF 是 DF 的倒数(取log), IDF 越大,表示这个词越重要。

TF-IDF 怎么影响搜索排序,举一个实际例子来解释:

假定现在有一篇博客《Blink 实战总结》,我们要统计这篇文章的关键字,首先是对文章分词统计词频,出现次数最多的词是--"的"、"是"、"在",这些是“停用词”,基本上在所有的文章里都会出现,他对找到结果毫无帮助,全部过滤掉。

只考虑剩下的有实际意义的词,如果文章中词频数关系: “Blink” > “词频” = “总结”,那么肯定是 Blink 是这篇文章更重要的关键字。但又会遇到了另一个问题,如果发现 "Blink"、"实战"、"总结"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?

不是的,通过统计全部博客,你发现 含关键字总博客数: “Blink” < “实战” < “总结”,这时候说明 “Blink” 不怎么常见,一旦出现,一定相比 “实战” 和 “总结”,对这篇文章的重要性更大。

BM25

上面解释了 TF 和 IDF,那么 TF 和 IDF 谁更重要呢,怎么计算最终的相关性得分呢?那就是 BM25。

BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。

BM25算法的一般性公式如下:

其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。

其中 Wi 通常使用 IDF 来表达,R 使用 TF 来表达;综上,BM25算法的相关性得分公式可总结为:

BM25 通过使用不同的语素分析 *** 、语素权重判定 *** ,以及语素与文档的相关性判定 *** ,我们可以衍生出不同的搜索相关性得分计算 *** ,这就为我们设计算法提供了较大的灵活性。

更多关注微信公众号:jiuwenwang

扫描二维码推送至手机访问。

版权声明:本文由黑客技术发布,如需转载请注明出处。

本文链接:https://www.w-123.com/37568.html

标签: 黑客

“搜索引擎入门(4)—查询结果排序” 的相关文章

Java 加密漏洞 PoC 代码公开,受影响的版本需尽快升级

据Security affairs网站消息,4月21日,安全研究人员Khaled Nassar在Github上公开了Java 中新披露的数字签名绕过漏洞的PoC代码,该漏洞被追踪为CVE-2022-21449(CVSS 分数:7.5)。 漏洞的影响范围主要涉及 Java SE 和 Oracle Gr...

以色列 20 多万名学生的个人信息遭到泄露

据外媒报道,上周,约28万名以色列学生的个人信息在针对AcadeME公司的网络攻击中被泄露。据Jerusalem Post报道,Think Safe Cyber Facebook组织的May Brooks-Kempler估计,约有28万名在校或在校学生的个人信息被盗。 AcadeME是以色列一个全国...

北约所用的云平台 SOA &#038; IdM 被黑客入侵并威胁泄露数据给俄国

北约目前使用SOA & IdM平台来处理北极星(Polaris)计划中的几个基本功能,并且该机构将其列为关键设施并定义为机密级别,作为北约IT现代化计划的一部分,它被创建为提供集中的安全、整合和托管信息管理方案。 黑客声称,他们设法利用后门复制了这个平台上的数据,并试图敲诈安全解决方案商E...

韩国国家核智库原子能研究所 KAERI 遭到黑客攻击

韩国当局透露,Kimsuky在2021年5月成功入侵了国家核智库韩国原子能研究所(KAERI),KAERI被揭露此事的韩国新闻机构指控掩盖事实。恶意软件分析公司IssueMakersLab在5月14日发现了对KAERI的攻击。有13个不同的互联网地址参与了这次网络攻击,其中一个与Kimsuky有关...

修补太慢:WebKit 中的 AudioWorklet 漏洞仍影响 iOS 与 macOS 设备

尽管修复程序已发布数周,但苹果尚未完成对 iOS 和 macOS 中存在的 WebKit 漏洞的修补。Apple Insider 指出,该漏洞由网络安全初创公司 Theori 研究人员首先发现,问题主要与 WebKit 中的 AudioWorklets 实现有关。除了可能引发 Safari 浏览器的...

有证据表明高通驱动中的 4 个漏洞已经被黑客利用 数百万台设备受影响

有证据标明存在于高通和 Mali GPU 内核驱动中的漏洞已经被黑客利用,至少有数百万台 Android 设备受到影响。到目前为止,Google Pixel 设备是唯一得到修补的设备,但其他 Android 设备延迟更新的长期问题仍然存在。 本月早些时候,安全公司 Check Point 发现,为...

评论列表

断渊木落
3年前 (2022-05-29)

为: BM25 通过使用不同的语素分析方法、语素权重判定方法,以及语素与文档的相关性判定方法,我们可以衍生出不同的搜索相关性得分计算方法,这就为我们设计算法提供了较大的灵活性。

假欢戏侃
3年前 (2022-05-29)

供了较大的灵活性。 更多关注微信公众号:jiuwenwang

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。