TF(词频)-IDF(逆文档频率) 在自动提取文章关键词上经常用到,通过它可以知道某个关键字在这篇文档里的重要程度。其中 TF 表示某个 Term 在 Document 里出现的频次,越高说明越重要;DF 表示在全部 Document 里,共有多少个 Document 出现了这个词,DF 越大,说明这个词很常见,并不重要,越小反而说明他越重要,IDF 是 DF 的倒数(取log), IDF 越大,表示这个词越重要。
TF-IDF 怎么影响搜索排序,举一个实际例子来解释:
假定现在有一篇博客《Blink 实战总结》,我们要统计这篇文章的关键字,首先是对文章分词统计词频,出现次数最多的词是--"的"、"是"、"在",这些是“停用词”,基本上在所有的文章里都会出现,他对找到结果毫无帮助,全部过滤掉。
只考虑剩下的有实际意义的词,如果文章中词频数关系: “Blink” > “词频” = “总结”,那么肯定是 Blink 是这篇文章更重要的关键字。但又会遇到了另一个问题,如果发现 "Blink"、"实战"、"总结"这三个词的出现次数一样多。这是不是意味着,作为关键词,它们的重要性是一样的?
不是的,通过统计全部博客,你发现 含关键字总博客数: “Blink” < “实战” < “总结”,这时候说明 “Blink” 不怎么常见,一旦出现,一定相比 “实战” 和 “总结”,对这篇文章的重要性更大。
上面解释了 TF 和 IDF,那么 TF 和 IDF 谁更重要呢,怎么计算最终的相关性得分呢?那就是 BM25。
BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。
BM25算法的一般性公式如下:
其中,Q表示Query,qi表示Q解析之后的一个语素(对中文而言,我们可以把对Query的分词作为语素分析,每个词看成语素qi。);d表示一个搜索结果文档;Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关性得分。
其中 Wi 通常使用 IDF 来表达,R 使用 TF 来表达;综上,BM25算法的相关性得分公式可总结为:
BM25 通过使用不同的语素分析 *** 、语素权重判定 *** ,以及语素与文档的相关性判定 *** ,我们可以衍生出不同的搜索相关性得分计算 *** ,这就为我们设计算法提供了较大的灵活性。
更多关注微信公众号:jiuwenwang
据Security affairs网站消息,4月21日,安全研究人员Khaled Nassar在Github上公开了Java 中新披露的数字签名绕过漏洞的PoC代码,该漏洞被追踪为CVE-2022-21449(CVSS 分数:7.5)。 漏洞的影响范围主要涉及 Java SE 和 Oracle Gr...
据外媒报道,上周,约28万名以色列学生的个人信息在针对AcadeME公司的网络攻击中被泄露。据Jerusalem Post报道,Think Safe Cyber Facebook组织的May Brooks-Kempler估计,约有28万名在校或在校学生的个人信息被盗。 AcadeME是以色列一个全国...
北约目前使用SOA & IdM平台来处理北极星(Polaris)计划中的几个基本功能,并且该机构将其列为关键设施并定义为机密级别,作为北约IT现代化计划的一部分,它被创建为提供集中的安全、整合和托管信息管理方案。 黑客声称,他们设法利用后门复制了这个平台上的数据,并试图敲诈安全解决方案商E...
韩国当局透露,Kimsuky在2021年5月成功入侵了国家核智库韩国原子能研究所(KAERI),KAERI被揭露此事的韩国新闻机构指控掩盖事实。恶意软件分析公司IssueMakersLab在5月14日发现了对KAERI的攻击。有13个不同的互联网地址参与了这次网络攻击,其中一个与Kimsuky有关...
尽管修复程序已发布数周,但苹果尚未完成对 iOS 和 macOS 中存在的 WebKit 漏洞的修补。Apple Insider 指出,该漏洞由网络安全初创公司 Theori 研究人员首先发现,问题主要与 WebKit 中的 AudioWorklets 实现有关。除了可能引发 Safari 浏览器的...
有证据标明存在于高通和 Mali GPU 内核驱动中的漏洞已经被黑客利用,至少有数百万台 Android 设备受到影响。到目前为止,Google Pixel 设备是唯一得到修补的设备,但其他 Android 设备延迟更新的长期问题仍然存在。 本月早些时候,安全公司 Check Point 发现,为...