一个数据分析师的博客正在改变着纽约人看待城市的方式
Ben Wellington 因为这个消防栓而被鉴定为纽约“开放数据”运动之王。今年早些时候,Wellington 钻研了纽约市的违章停车罚单的数据,识别出连续街区的两个消防栓一年产生了$55,000 的罚单进项,它们都来自于貌似合法停车的车主。Wellington 的在线报告病毒式地扩散不久,热衷数据的市民调查者发现,交通部门已经调整了道路标志,还重新粉刷了停车位,以便司机不会被处罚。(交通部门没有就此询问给出回应)
Wellington 受欢迎的博客“I Quant NY”,与前市长布隆伯格在 2012 年签署的重要法律有关,该法律强制要求城市机构把他们得到的所有数据公开到线上且可搜索。然而,很少有人像 Wellington 一样,能够深挖隐藏在日常问题背后的、真正使纽约市民激怒、开心以及感到好奇的秘密,他写过关于城市最肮脏的快餐连锁店的文章、研究过半数曼哈顿人怎样呆在 4 个街区的星巴克里,以及哪个街区以树木多感到自豪。
这个 33 岁的年轻人住在布鲁克林公寓里,靠一个笔记本支撑着博客的运作——那时候他还不在普瑞特艺术学院研究生中心做规划与环境的工作,也不是帮助预测了数十亿美元基金拨款给 Two Sigma 投资公司的数字达人。
博客的初衷非常简单:使用开放数据改变*的政策。随着他公开了城市机构正在做的所有错事,他正成为一支被重视的力量。
“我尽量让统计直观,”他说,“甚至更酷。想象一下。”
这个瘦弱的数据呆子,拥有实验性自然语言处理(对于英语,则是苹果 Siri 和 Google 翻译之类的程序背后的计算机科学)的博士学位,但他愿意称自己为“数学 DJ”。他对数字的热爱,倾注到了他在普瑞特艺术学院教授的统计课程。课程、与学生交流,成为今年 2 月份上线的博客基矗
然而,分析数据占去了他学术内外的大块时间,Wellington 说,它真的想讲故事,想成为这个城市更好的政策制定的催化剂——他每次做一个数据集。
总是有另一个值得奋斗的理由,Wellington 从一个地方走到了另一个地方,不管是找到了有免费 Wi-Fi 热点的公用电话,还是搞清楚了哪个州有最好的和最差的公共住房(分别是爱德华州—是的,爱德华州—和马里兰州,尽管哥伦比亚特区甚至更糟)。
这是他的风格:自然而然。去年,他和妻子莱斯利从易趣网买了一辆 1973 年的大众巴士,在 3 个月里开着它走遍了美国(他们原打算卖掉的,但是爱上了它)。甚至在课堂上,学生把他的演讲风格描述成*的、快人快语,他在学生之间跳跃,毫无疑问在找到了一个喜剧即兴表演小组之后,他在苦练,最近开始与另一个小组一起工作。
根据这个博学者的调查,一些机构或许准备与其合作。他说,他正在和很多当地*办公室进行“初步沟通”,纽约市发言人——Wellington 数次挖掘该城市的合法要求、以找到预见性的、大数据提供者——说 Wellington 的工作是在帮助“形成对话、促进美国最大城市的数据驱动政策的发展。”
但是这些属于官僚主义,不会对改变有开放心态,因此 Wellington 表示谨慎乐观。
“相关部门不太确信根据这种城市特色的开放数据能够做些什么,”他说,“当你找到某人,对他们说有地方出问题了,他们的第一反应是防御。”
尽管如此,还是有有很多部门对 Wellington 的主张做出了响应,其中一些部门坦率地拒绝了他的主张。比如,他指控卫生部的有瑕疵的餐馆评级系统,宽松的监督员夸大了纽约管辖的从较高的“B”到较低的“A”的等级。然而,该部门驳回了 Wellington 的阴谋论,指出这些监督员被告知要引证他们看到的任何细节。
关于大都会运输署【注1】强制地铁乘客为重复使用的 MetroCard 充值特定额度、导致可观的未用余额、以帮助其每年敛财 5000 万美元的理论,产生了很大反响。大都会运输署不承认这是有意诈骗乘客,反而说记住了他建议的费用,在明年会推出费用增长。
Wellington 尽量避免可能导致被控诉倾向左或者右的政治派别的方式写博文(他妻子供职于纽约市议会)。当然,他的支持者说,他正在揭示一些真正的消费者痛点,并向一些人发出了一种声音,那些人可能不知道该从哪里开始观察数字数据。
政治科学刚毕业的 Wil Fisher 买了门票,听了 Wellington 在纽约 11 月 TED 会议上的演讲,说,“他有真正的解决方案”。
最近,Wellington 说,它正忙于一本关于数据方面的书——受到他最喜欢的一个主题,Kate Ascher 的《The Works:Anatomy of a Ctiy》的启发,它尽量把光亮照到支撑着这个国家最大城市的、阴暗的内脏。对于他接下来的开放数据行动,Wellington 正在思考着手更加宏伟的主题:计算某个纽约区域发生火灾的可能性——在某种程度上是依据建筑物的年龄和规模。
“我正在以快速循环的方式做数据科学”,他说。“或许我做一项研究花费的时间是 4 个小时而非 4 个月,这就带来了很多问题——但是,更重要的是,它引起了人们的讨论。”