集体智慧编程 简介 博客分类: 推荐系统 集体智慧推荐系统机器学习
Netflix 是一家在线租片儿的公司, 并且更具用户过去租片的行为来进行推荐, 他悬赏100万美元去奖励第一个把租片成功率提高10%的团队,以及5 万美元给这个团队的leader,通过提供用户以前租片的纪录给团队们进行推荐,现在做的最牛屄的团队是提高了 7%。
google 是意见搜索公司,创立当时有很多其他的公司, 但是google 通过其他网页对他的外链来进行排序,搜索质量远远好于其他的竞争对手, 占到了当时 85%的市场份额。他们的创始人也跻身世界上最有钱的10个人。
这两家公司的共同点是什么呢? 他们回通过收集用户的数据,运用强大的算法得出新的结论,创造新的结论,这种收集信息和计算的能力,让他们更好的理解他们的顾客。这种事情发生在很多地方,比如做行程的网站, 最好尽量给用户提供最好的行程, 每个人都希望更好了解他们的用户。
在集体智慧中有很多有意思的例子。新的服务和机会每天都会出现,我相信了解机器学习和统计方法的人会在很多其他领域越来越受欢迎,关键是在解释和组织大量用户生成的信息。
什么是集体智慧编程?
人们用集体智慧已经好几年了, 这个词变的原来越流行,虽然这个词给人感觉是个超自然的, 但是这个词表达了对人们行为,爱好去创造新颖的见解。
集体智慧在互联网之前就出现了,你不需要web去搜集信息,最典型的方式是做调查或者人口普查,通过搜集很多人的答案,然后用一些统计方法,去得出一些甚至个体无法知道的结论。
一个被广为人知的例子是金融市场, 人们在金融市场中交易,交易的价格不是某个人定义的,而是通过很多人的交易行为定义的,交易的人总认为他们的行为是最有利于他们的,在未来的金融市场,个人交易者按照按照他们个人意愿进行交易甚至会比一些专家做的预测更好, 因为他们市场会融合他们的知识,经验,洞察成千上万的人做一些预测,比一些专家都准。
尽管集体智慧方法在互联网之前就一直有,但是互联网收集信息的能力让一切变的有其他可能。人们在互联网上交易,找乐子,做研究,这一切数据都是可以被监控的, 可以不用打断大家的注意力就开始分析他们的行为,下面几个例子看看怎么弄的。
wiki: *做的事情就是让所有用户去编辑,只有少数专家来做监测,虽然他都是由普通用户编辑,但是他的专业程度可以说是很专业的。这可以说是集体智慧的一种,任何页面能够被任何人编辑,*没有做其他处理,只是展示了最新的版本。
google: 是世界上最受欢迎的搜索引擎,他通过链接来给网页排序。这种排序的方法携带了大量用户对这个网页的评价的信息,用这些信息来给网页做排序。wiki 只是简答的展示了用户的行为,而google分析了大量网页带有的信息,用这些信息打分。
wiki百科最大的价值在于从用户那里提取信息进行展示, 而不是做一些算法。 其他做法更具科技含量, 比如google的排序算法,通过计算去发现一些新的东西。一些数据需要问别人,而其他的可以随便得到,比如在网上买了什么东西,不管什么方法收集数据都不重要,更加重要的是通过一些智慧的方法去发现一些新的东西。
什么是机器学习?
机器学习是人工智能的一个分支, 他允许机器去学习。这个意思是说,他会通过一些算法在给定的一个数据集上推测数据的一些属性,并在其他数据集上做预测。这是因为他假设任何非随机的数据都是有模式的,这些模式允许机器去识别。为了识别这些数据,机器会训练一个模型去标示信息的重要的方面。
怎么训练一个模型,举一个简单的例子,一个垃圾邮件过滤系统。有人恶意攻击你,给你发去去去,从人的角度来看,你会识别这个去去去,这种模式, 明白去去去是一次攻击,就会把这种邮件直接扔到垃圾邮件中。一个机器学习算法如果想像人一样去做识别, 得学会去认知这种模式。
有许多机器学习的算法,不同的算法应对不同的场景。 有些算法是透明的,比如决策树,每一步都可以被监测,明明白白,可以被debug,其他的比如说神经网络, 就像一个黑盒,只输出结果。
许多机器学习算法依赖数学和统计。 更具之前给出的定义, 可以简单的说,机器学习就是相关性统计和回归。
机器学习的限制
机器学习不是没有任何缺点。不同算法在识别很大的数据集的时候有很大差异,模式很有可能被识别错。人类有很多经验,文化知识,让他们可以去识别简单的情况, 做一些决定。机器只能靠以往的数据做一些有限的行为。
在之前提到的邮件过滤的系统中,只是简单依靠出现的词,并没有分析上下文, 不是这样做不可以,只是这样做代价太大,在现在实际的生产环境中,得不偿失,太复杂,不光是邮件过滤了。
在现有的机器学习的算法中,有个问题就是过渡学习。一些建立在少数信息上的识别是不准确的。比如我们收到了一个好朋友的去去去的邮件,这时候我们得告诉邮件过滤系统,这是合法的, 系统会去猜测好朋友的邮件不过滤。许多机器学习算法的特性是他们不会持续不断的学习新的信息。
真实生活的例子
互联网上很多企业都在通过用户信息,用机器学习和统计的方法去优化,其中最大的算是google了 , 他会用网页的链接对搜索结果进行排序,更加重要的,他会手机用户点击广告的行为,对用户推更好的广告。
在比如亚马逊,会通过其他的人的购买行为给你推荐商品,一些音乐网站也会通过不同的歌曲来推一些东西。
预测也是集体智慧的一个方面,好莱坞股票交易,股票价格是通过一群人的行为,而不是个体的行为。
其他领域的机器学习
1. 生物学 用机器学习寻找dna 什么乱七八糟的模式
2. 金融担保 计算交易是否欺诈
3. 图像识别 人脸识别, 车牌识别啥的
4. 供应链最优化 有很多关键因素决定是否是最优的
5. 国家安全