Kaggle的比赛在 Machine Learning领域中属于什么地位？

程序员文章站 2022-06-05 13:40:34

...

一般能在kaggle上获奖的都是什么样的人？能学到东西吗？在kaggle上获过奖在求职或申请研究生方面算是一个亮点吗？

回复内容：

从Netflix Prize之后的一两年，这种类型的比赛开始盛行。最开始参与的能取得好成绩的都是一些大牛，比如大家都熟知的项亮当时是Netflix Prize第二名的成员。

这几年随着比赛越来越多，winner solution也到处都是，套路大家也越来越熟。不管什么比赛， LR+GDBT+FM+NN上去一搞，再ensemble一下，总能得到一个不错的结果。

在kaggle上获得什么名次不能说明什么。如果能在比赛过程中体现出分析问题解决问题的能力，特别是能针对性的提出结果方案，才能体现真实水平。举一个例子，上海交大APEX实验室的团队参加KDD Cup 11之后开发了SVD Feature；参加KDD Cup 12获得第一名中的一些tree相关的技术是Tianqi的ICML 13 paper以及XGBoost的基础。相反，如果你翻开最近参加kaggle比赛的一些solution分享，大多都是follow一些特定的流程走了一遍，并没有什么新东西。

另外，现在大家都是组队参加，真正能起决定作用的是其中少数几个人，另外还有几个打酱油的喜欢拿着成绩自己出去吹，对这些人大家还是多加小心。

参加比赛和做research是不一样的。很多人可以不必了解model和algorithm的细节，拿几个开源的包跑跑就可以得到不错的成绩。而做*好的*research需要对模型和应用较深的理解。所以，对求职来说是一个亮点，但是对申请研究生来说，不一定。获奖的都是有真本事的人，在上面练几个题目得个好名次，十分能证明你对数据科学这个领域的实践和理解。我现在招人的时候几乎是这个标准：

写上参加过Kaggle比赛，我会看简历。
得过一次10%，我会给电话面试。
得过2次或者以上10%，我会给on site面试。
得过一次前10，我们会谈笑风生。

楼主加油。在主流科研界可能影响已经不大了，但是在工业界中依然很受用。如果你有一些特别亮点的成绩，还是很有说服力的。也正如 @lau phunter中提到的答案一样。

如果要在Kaggle比赛里面获得一个好的成绩，免不了要做大量的实验：关于参数选择，模型选择，以及特征工程等等。而为了高效地完成这些实验，即要有良好的实验思想，又要有扎实的代码功底来完成Pipeline设计与架构。这都非常考验人的综合能力，是工业界需要的人才。

当然即便如此，Kaggle的比赛已经比真实世界中的机器学习要做的事情简化太多了。我们平时时间都花在哪了？
* 确定要解决的问题到底是什么
* 明确优化指标
* 收集合适的数据
* 数据清洗
* 做各种实验
* 要求其他组的人协同做A/B Test
* 把机器学习的Pipeline整合到其他产品的Pipeline中
* 在各个场合推销我们的模型真的有用……

所以真正能跑实验的时间并不多。但无论怎样，至少Kaggle中取得一个好成绩说明你真的可以系统性地做实验，是非常大的亮点，也是非常过硬得指标。申请研究生应该没卵用，没拿过这个东西申请工作，也不知道。至于能不能学到东西，看什么样的比赛，以及是否用心。

有些比赛数据太简单，下载下来跑个Xgboost，就10%了。不过如果自己去尝试新的东西，也是能有收获的。

有一些数据比较麻烦，处理数据就费时间，feature engineering的余地也比较丰富，有时候要自己写一些规则或者写loss function，这些比赛可以学到不少。

获奖不容易。简单的比赛由于参加人数太多，方法又太同质化，时间都花在tuning parameter和ensemble上，获奖需要很好的运气。复杂的比赛，方法千差万别，还搞tuning parameter那套就不灵了，top队伍时间都花在抓问题关键上，谁抓到的关键更多，谁分数就更高，这个要花很多时间和思考，比较刺激。什么样的人都有。奖金高的比赛有不少大公司的"专业选手"，奖金低的比赛入门级选手居多。到缺少专业机器学习人才的公司求职会有帮助。申请研究生不如发表顶会文章有用。感觉没什么地位，属于转专业到data scientist利器。这种实战性的比赛挺好的，我们模仿kaggle办了一个大数据的比赛，欢迎来玩。
奖金1w，时间黑客：寻找创造时间的程序大师随身云日历产品大数据挖掘&在线编程大赛One suggestion, do a crappy PhD, or get a job. Just don't get a master's. Unless it's funded or in US. 进榜不难，排前面较易，排前几很难。都是套路，熟练+简单思考就好。跟挖掘机开酒瓶的比赛没啥区别…

以上就是Kaggle的比赛在 Machine Learning领域中属于什么地位？的内容，更多相关内容请关注PHP中文网（www.php.cn）！

相关标签： kaggle，Machine ，Learning

上一篇：通过axios发送post请求发现springMVC接收不到参数问题（详细教程）

下一篇：分享java打印简单图形的实现代码