分类器的选择

巴啦拉大魔仙 2024-05-16 14:04:51
最佳回答
如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差分类器不足以提供准确的模型。  你也可以认为这是生成模型与判别模型的区别。  一些特定算法的优点  朴素贝叶斯的优点:超级简单,你只是在做一串计算。如果朴素贝叶斯(nb)条件独立性假设成立,相比于逻辑回归这类的判别模型,朴素贝叶斯分类器将收敛得更快,所以你只需要较小的训练集。而且,即使nb假设不成立,朴素贝叶斯分类器在实践方面仍然表现很好。如果想得到简单快捷的执行效果,这将是个好的选择。它的主要缺点是,不能学习特征之间的相互作用(,它不能学习出:虽然你喜欢布拉德·皮特和汤姆·克鲁斯的电影,但却不喜欢他们一起合作的电影)。  逻辑回归的优点:有许多正则化模型的方法,你不需要像在朴素贝叶斯分类器中那样担心特征间的相互关联性。与决策树和支撑向量机不同,你还可以有一个很好的概率解释,并能容易地更新模型来吸收新数据(使用一个在线梯度下降方法)。如果你想要一个概率框架(比如,简单地调整分类阈值,说出什么时候是不太确定的,或者获得置信区间),或你期望未来接收更多想要快速并入模型中的训练数据,就选择逻辑回归。  决策树的优点:易于说明和解释(对某些人来说—我不确定自己是否属于这个阵营)。它们可以很容易地处理特征间的相互作用,并且是非参数化的,所以你不用担心异常值或者数据是否线性可分(比如,决策树可以很容易地某特征x的低端是类a,中间是类b,然后高端又是类a的情况)。一个缺点是,不支持在线学习,所以当有新样本时,你将不得不重建决策树。另一个缺点是,容易过拟合,但这也正是诸如随机森林(或提高树)之类的集成方法的切入点。另外,随机森林往往是很多分类问题的赢家(我相信通常略优于支持向量机),它们快速并且可扩展,同时你不须担心要像支持向量机那样调一堆参数,所以它们最近似乎相当受欢迎。  svms的优点:高准确率,为过拟合提供了好的理论保证,并且即使你的数据在基础特征空间线性不可分,只要选定一个恰当的核函数,它们仍然能够取得很好的分类效果。它们在超高维空间是常态的文本分类问题中尤其受欢迎。然而,它们内存消耗大,难于解释,运行和调参也有些烦人,因此,我认为随机森林正渐渐开始偷走它的“王冠”。  然而…  尽管如此,回忆一下,更好的数据往往打败更好的算法,设计好的特征大有裨益。并且,如果你有一个庞大数据集,这时你使用哪种分类算法在分类性能方面可能并不要紧(所以,要基于速度和易用性选择算法)。  重申我上面说的,如果你真的关心准确率,一定要尝试各种各样的分类器,并通过交叉验证选择最好的一个。或者,从netflix prize(和middle earth)中吸取教训,只使用了一个集成方法进行选择。 20210311
汇率兑换计算器

类似问答
  • 基金的分类与选择方法
    • 2024-05-16 20:03:45
    • 提问者: 未知
    基金小贴士:1.基金的基本概念基金将众多投资者的资金集中起来,委托基金管理人进行共同投资,表现出一种集合理财的特点。可以理解为专家理财。2.基金的种类基金一般分货币基金,债券基金,混合基金,偏股基金,股票基金,指数基金。 其中偏股基金可归为混合基金,指数基金可归于股票基金。由于它们的投资方向不同,收益和承担的风险也各不相同。不同的基金收益不同,同一类基金在不同投资时点收益也截然不同。3.基金的收...
  • 示波器参数选择,如何选择示波器
    • 2024-05-16 21:14:39
    • 提问者: 未知
    11、您需要多少带宽我们已经处于数字示波器时代,与仅考虑模拟放大器的带宽相比,应更多的考虑示波器的带宽,为了保证示波器为应用提供足够的带宽,您必需考虑示波器将要考察的信号带宽。  带宽是示波器最重要的特点,因为它决定这显示的信号范围,它在很大程度上还决定着用户需要支付的价格。在制定带宽决策时,您必需把当前有限的预算与实验室中示波器使用期间预计的需求平衡起来。  在当前的数字技术中,系统时钟通常是示...
  • 3g路由器选择什么品牌的好?
    • 2024-05-16 17:25:36
    • 提问者: 未知
    3g路由器选择小巧些的比较好,
  • 扫地机器人选择拖扫一体的好?还是分开的好?
    • 2024-05-16 04:12:02
    • 提问者: 未知
    扫拖组合通常是指一台扫地机器人加一台拖地机器人的组合方式,扫地机器人主要负责打扫浮灰、毛屑等固体状态的垃圾杂质,拖地机器人则主要负责清扫扫地机器人未能清洁干净的灰尘及液体杂质。一般使用时的安排为扫地机器人在前面先扫地,然后在由拖地机人在后头细致的湿拖,这样做的好处是,清洁的效果好,不过两台机子同时工作,耗费的时间也会比较久。扫拖一体机是这两年才上市的扫地机器人,通过在扫地机器人的尾部加装湿拖板的方...
  • 如何选择**?
    • 2024-05-16 20:17:08
    • 提问者: 未知
    过滤精度(也叫脱盐率)能达到95-98%不等。在过滤以后仍保留一少部分的...看了楼上的某些答(ruan)案(wen),你们自己真的把净水机(**、净水系统)的原理搞清楚了吗?...
  • 滴灌灌水器如何选择?
    • 2024-05-16 20:54:08
    • 提问者: 未知
    (1)类型选择①一年生大田作物(棉花、加**前、玉米等)及大面积栽培 的露地蔬菜、甜瓜、西瓜,宜选用一次性滴灌带。②葡萄、啤酒花和密植果树,一般采用出水量均勻、可多年使 用的滴灌管(带...
  • 显示器品牌选择问题?
    • 2024-05-16 13:32:03
    • 提问者: 未知
    现在显示器各个品牌之间是如何定位或排名的?最近想选一款2000元以下的27寸显示器,搭配i5-6500+1050ti或rx…
  • 机器学习书籍选择?
    • 2024-05-16 22:19:52
    • 提问者: 未知
    求推荐有详细算法推导的机器学习书籍或者数据挖掘书籍?
  • 如何选择图表类型
    • 2024-05-16 03:39:17
    • 提问者: 未知
    1数据的五种关系首先,我们需要了解,数据通常包含五种相关关系:构成、比较、趋势、分布及联系。构成主要关注每个部分所占整体的百分比,如果你想表达的信息包括:“份额”、“百分比”以及“预计将达到百分之多少”,这时候可以用到饼图;比较可以展示事物的排列顺序——是差不多,还是一个比另一个更多或更少呢?“大于”、“小于”或者“大致相当”都是比较相对关系中的关键词,这时候会首选条图;趋势是最常见的一种时间序列...
  • 如何选择空气净化器?
    • 2024-05-16 01:28:26
    • 提问者: 未知
    2.根据净化功能 根据住宅的空气环境和适合的净化效果来选择所需的功能。空气净化器的功能主要是净化、杀菌、过滤、加湿等,不同的产品会有多种功能。3.根据净化方式 根据...
汇率兑换计算器

热门推荐
热门问答
最新问答
推荐问答
新手帮助
常见问题
房贷计算器-九子财经 | 备案号: 桂ICP备19010581号-1 商务联系 企鹅:2790-680461

特别声明:本网为公益网站,人人都可发布,所有内容为会员自行上传发布",本站不承担任何法律责任,如内容有该作者著作权或违规内容,请联系我们清空删除。