召回率与准确率

news/2024/7/10 22:16:36 标签: 数据挖掘, 搜索引擎, query, 互联网, 文档, c
cle class="baidu_pl">
cle_content" class="article_content clearfix">
content_views" class="htmledit_views">  召回率和准确率是class="tags" href="/tags/ShuJuWaJue.html" title=数据挖掘>数据挖掘中预测、class="tags" href="/tags/HuLianWang.html" title=互联网>互联网中的class="tags" href="/tags/SouSuoYinQing.html" title=搜索引擎>搜索引擎等经常涉及的两个概念和指标。
召回率:Recall࿰c;又称“查全率”——还是查全率好记࿰c;也更能体现其实质意义。
准确率:Precision࿰c;又称“精度”、“正确率”。

以检索为例࿰c;可以把搜索情况用下图表示:
cellspacing="0" cellpadding="0" width="258" align="left" height="79">
center">
center"> 相关
center"> 不相关
center"> 检索到
color="#6633cc">
center"> color:#000000">A
color="#ffff00">
center"> color:#000000">B
center"> 未检索到
color="#66ff66">
center"> color:#000000">C
color="#66ccff">
center"> color:#000000">D

 

 



A:检索到的࿰c;相关的                              (搜到的也想要的)
B:检索到的࿰c;但是不相关的                  (搜到的但没用的)
C:未检索到的࿰c;但却是相关的              (没搜到࿰c;然而实际上想要的)
D:未检索到的࿰c;也不相关的                  (没搜到也没用的)

如果我们希望:被检索到的内容越多越好࿰c;这是追求“查全率”࿰c;即A/(A+C)࿰c;越大越好。
如果我们希望:检索到的class="tags" href="/tags/WenDang.html" title=文档>文档中࿰c;真正想要的、也就是相关的越多越好࿰c;不相关的越少越好࿰c;这是追求“准确率”࿰c;即A/(A+B)࿰c;越大越好。
 
“召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到)࿰c;在实际应用中࿰c;是相互制约的。要根据实际需求࿰c;找到一个平衡点。

往往难以迅速反应的是“召回率”。我想这与字面意思也有关系࿰c;从“召回”的字面意思不能直接看到其意义。“召回”在中文的意思是:把xx调回来。“召回率”对应的英文“recall”࿰c;recall除了有上面说到的“order sth to return”的意思之外࿰c;还有“remember”的意思。
Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.
当我们问检索系统某一件事的所有细节时(输入检索class="tags" href="/tags/QUERY.html" title=query>query查询词)࿰c;Recall指:检索系统能“回忆”起那些事的多少细节࿰c;通俗来讲就是“回忆的能力”。“能回忆起来的细节数” 除以 “系统知道这件事的所有细节”࿰c;就是“记忆率”࿰c;也就是recall——召回率。简单的࿰c;也可以理解为查全率。
cle>

http://www.niftyadmin.cn/n/1535493.html

相关文章

Java ThreadLocal 该类提供了线程局部 (thread-local) 变量

ThreadLocal,可以理解为线程的局部变量,作用就是为每一个使用该变量的线程都提供一个变量值的副本,每一个线程都可以独立地改变自己的副本,而不会和其它线程的副本冲突。 ThreadLocal是如何做到为每一个线程维护变量的副本的呢&am…

GB2312、GBK、Big5汉字编码

由于常常要和汉字处理打交道,因此,我常常受到汉字编码问题的困扰。在不断的打击与坚持中,也积累了一点汉字编码方面的经验,想和大家一起分享。 一、汉字编码的种类 汉字编码中现在主要用到的有三类,包括GBK&#xff0…

常用字符集编码详解:ASCII 、GB2312、GBK、GB18030、UTF-8、unicode

ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位AS…

字符集和编码方式

一 预备知识 1,字符:字符是抽象的最小文本单位。它没有固定的形状(可能是一个字形),而且没有值。“A”是一个字符,“€”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符…

Java入门——(4)多线程

Java入门——(4)多线程关键词:线程、Thread、Runnable、sleep()、yield()、join()、同步一、线程的概述在一个操作系统中,每个独立执行的程序都可以称为一个进程,也就是“正在运行的程 序”。而在进程中还可以有多个执…

自然语言处理入门书

如果你刚接触自然语言处理并对她感兴趣,最好读几本这方面的书籍,除了能让你知道自然语言处理各个领域是干什么的外,还能培养一下NLP的感觉。 以下四本书是我读研期间阅读和接触过的,如果您还有好书推荐,欢迎补充。 1、…

转:LRU算法

LRU是Least Recently Used的缩写,即最近最少使用页面置换算法,是为虚拟页式存储管理服务的,是根据页面调入内存后的使用情况进行决策了。由于无法预测各页面将来的使用情况,只能利用“最近的过去”作为“最近的将来”的近似&#…

自然语言处理应用方向和专业英语

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理处理的内容涉及到语言的各个层次,包括字、词、句、段落、篇章和语义。 目前自然语言处理的主要研究和应用方向有&a…