欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

Kaggle的比赛在 Machine Learning领域中属于什么地位?

程序员文章站 2022-06-05 13:40:34
...
一般能在kaggle上获奖的都是什么样的人?能学到东西吗?在kaggle上获过奖在求职或申请研究生方面算是一个亮点吗?

回复内容:

从Netflix Prize之后的一两年,这种类型的比赛开始盛行。最开始参与的能取得好成绩的都是一些大牛,比如大家都熟知的项亮当时是Netflix Prize第二名的成员。

这几年随着比赛越来越多,winner solution也到处都是,套路大家也越来越熟。不管什么比赛, LR+GDBT+FM+NN上去一搞,再ensemble一下,总能得到一个不错的结果。

在kaggle上获得什么名次不能说明什么。如果能在比赛过程中体现出分析问题解决问题的能力,特别是能针对性的提出结果方案,才能体现真实水平。举一个例子,上海交大APEX实验室的团队参加KDD Cup 11之后开发了SVD Feature;参加KDD Cup 12获得第一名中的一些tree相关的技术是Tianqi的ICML 13 paper以及XGBoost的基础。相反,如果你翻开最近参加kaggle比赛的一些solution分享,大多都是follow一些特定的流程走了一遍,并没有什么新东西。

另外,现在大家都是组队参加,真正能起决定作用的是其中少数几个人,另外还有几个打酱油的喜欢拿着成绩自己出去吹,对这些人大家还是多加小心。

参加比赛和做research是不一样的。很多人可以不必了解model和algorithm的细节,拿几个开源的包跑跑就可以得到不错的成绩。而做*好的*research需要对模型和应用较深的理解。所以,对求职来说是一个亮点,但是对申请研究生来说,不一定。 获奖的都是有真本事的人,在上面练几个题目得个好名次,十分能证明你对数据科学这个领域的实践和理解。我现在招人的时候几乎是这个标准:

  1. 写上参加过Kaggle比赛,我会看简历。

  2. 得过一次10%,我会给电话面试。

  3. 得过2次或者以上10%,我会给on site面试。

  4. 得过一次前10,我们会谈笑风生。

楼主加油。 在主流科研界可能影响已经不大了,但是在工业界中依然很受用。如果你有一些特别亮点的成绩,还是很有说服力的。也正如 @lau phunter中提到的答案一样。

如果要在Kaggle比赛里面获得一个好的成绩,免不了要做大量的实验:关于参数选择,模型选择,以及特征工程等等。而为了高效地完成这些实验,即要有良好的实验思想,又要有扎实的代码功底来完成Pipeline设计与架构。这都非常考验人的综合能力,是工业界需要的人才。

当然即便如此,Kaggle的比赛已经比真实世界中的机器学习要做的事情简化太多了。我们平时时间都花在哪了?
* 确定要解决的问题到底是什么
* 明确优化指标
* 收集合适的数据
* 数据清洗
* 做各种实验
* 要求其他组的人协同做A/B Test
* 把机器学习的Pipeline整合到其他产品的Pipeline中
* 在各个场合推销我们的模型真的有用……

所以真正能跑实验的时间并不多。但无论怎样,至少Kaggle中取得一个好成绩说明你真的可以系统性地做实验,是非常大的亮点,也是非常过硬得指标。 申请研究生应该没卵用,没拿过这个东西申请工作,也不知道。至于能不能学到东西,看什么样的比赛,以及是否用心。

有些比赛数据太简单,下载下来跑个Xgboost,就10%了。不过如果自己去尝试新的东西,也是能有收获的。

有一些数据比较麻烦,处理数据就费时间,feature engineering的余地也比较丰富,有时候要自己写一些规则或者写loss function,这些比赛可以学到不少。

获奖不容易。简单的比赛由于参加人数太多,方法又太同质化,时间都花在tuning parameter和ensemble上,获奖需要很好的运气。复杂的比赛,方法千差万别,还搞tuning parameter那套就不灵了,top队伍时间都花在抓问题关键上,谁抓到的关键更多,谁分数就更高,这个要花很多时间和思考,比较刺激。 什么样的人都有。奖金高的比赛有不少大公司的"专业选手",奖金低的比赛入门级选手居多。到缺少专业机器学习人才的公司求职会有帮助。申请研究生不如发表顶会文章有用。 感觉没什么地位,属于转专业到data scientist利器。 这种实战性的比赛挺好的,我们模仿kaggle办了一个大数据的比赛,欢迎来玩。
奖金1w,时间黑客:寻找创造时间的程序大师 随身云日历产品大数据挖掘&在线编程大赛One suggestion, do a crappy PhD, or get a job. Just don't get a master's. Unless it's funded or in US. 进榜不难,排前面较易,排前几很难。都是套路,熟练+简单思考就好。 跟挖掘机开酒瓶的比赛没啥区别…

以上就是Kaggle的比赛在 Machine Learning领域中属于什么地位?的内容,更多相关内容请关注PHP中文网(www.php.cn)!