八大行业大数据部署案例
全世界数据量正呈指数级上升,每18个月翻一倍。无论是关于大数据引起的问题,还是它带来的潜在效用,都是当下的热议话题。不过,除了议论,还有不少人付诸了实际行动。以下是八大行业的大数据部署案例。
NOAA (国家海洋暨大气总署)国家气象局
NOAA的大数据业务已有50个年头。如今,NOAA管理的年数据量高达30 PB,每日能从卫星,船只,飞机,浮标,以及它处传感器收集超过35亿份观察资料。收集完毕后,NOAA会汇总大气数据,海洋数据,以及地质数据,进行直接测定,绘制出复杂的高保真预测模型,将其提供给NWS(国家气象局)。每日,NWS的模型会生成成千上万的数据——私营或公有部门(包括国防部,或宇航局)的气象预报员播报的气象警报,以及气象预报。
AM生物技术DNA序列分析解决方案
美国休斯顿是全国AM生物技术重镇。AM生物技术的工作重心,在于开发一项新技术专利:制造适配子(经化学改性,基于DNA的分子物质)。从特定血样分析的定量诊断,到人体特定部位的定向药物分配,适配子的用途十分广泛。若要制造适配子,需要进行亿万次DNA短链分析。分析产生的数据量极其惊人,需要使用CD-HIT ,以及Galaxy公司的网络大数据分析工具才能处理。
NARA电子档案存档
NARA (国家档案记录管理机构)是美国的官方记录管理机构。NARA 管理的信息量高达142TB(这个数字仍呈上升趋势),对象多达70亿, 记录范围涵盖:联邦机构生态系统,国会,以及各总统图书馆。这些记录经过数字化,以不同格式进行存储,存储格式多达4800种。同时,NARA正着手另一项进程:将400多万立方英尺德馆藏档案数字化。最迟至2016,NARA 95%的电子档案信息都会对研究者开放。NARA 建立了ERA(电子档案存档),将其作为“系统体系”,在不同的法律框架下,执行各类存档功能,并实行记录管理。
Vestas风能发电配置与维护
Vestas是一家丹麦风力公司,Vestas通过使用超级计算机,以及大数据模型解决方案,来精确定位其风力发电机,以达到最大发电量,并减少能源成本。公司将从全球天气系统中收集的数据,与公司现有发电机的数据结合,存储于风库中。目前,Vestas风库存有近2.8 PB数据。现有参数范围包括:地面至300英尺高空的气温,气压,空气湿度,空气沉淀物,风向,风速;以及公司的历史数据记录。Vestas还计划添加以下数据:全球森林砍伐追踪图,卫星图像,地理数据,以及月相与潮汐数据。
IRS顺从性数据仓库
1996年,, IRS (美国国税局)启动了一项计划,计划上传一年纳税数据,以作分析使用。这项计划发起后,CDW(顺从性数据仓库)应运而生,CDW 能够容纳的信息量超过1 PB 。多数旧数据都已经过结构化,然而,新数据都为半结构,或未结构化格式:电子纳税申请,国际税务合作,第三方XML(可扩展标示语言),或其它格式。从估算国家税收缺口,至身份盗窃预测,从纳税人税率测定,至政策变更对公民纳税的影响,IRS 研究小组会对各类职业数据进行分析。
UOIT(安大略大学理工学院)医疗监测
UOIT携手IBM,开展了Artemis计划, 希望提升医学监测技术,在生命体征达临界值之前,监测器能察觉出危险迹象,并发出警示——如院内感染症状。对于早产儿而言,院内感染具有高致命性,初发症状为:婴儿脉搏跳动异常,虽在安全范围内,但时快时慢不符常规。数据流分析软件是Artemis计划的基础所在, 其信息处理架构能基于连续数据流分析,提供第一手决策支持。
TerraEchos公司Perimeter入侵检测
TerraEchos 是一家技术公司,专营关键基础架构防护,以及监控技术。美国能源部实验室就是公司的客户之一,实验室的科学数据,技术,以及研究资源依赖于TerraEchos 的保护。实验室需要一项技术解决方案,以检测,分类,查找,并追踪潜在(机器及生化)威胁 ——能察觉千里之外的风吹草动。为达到这一目的,解决方案使用了传感器,分析软件,以及高性能计算技术,以持续应对从的海量流动数据,并对这些范围囊括人与动物活动,至大气条件的数据进行大量分析。
NASA人类航天影像收集,存档,以及管理
NASA JSC(约翰逊航天中心)是美国宇航员培训中心,以及ISS(国际空间站)任务操作的中枢所在。从1959年至今,JSC已收集400多万静态图像,总达950万英尺的16毫米胶卷,85000卷录像磁带,以及总时长81616小时的视频模拟及数码档案。这些收藏可用于媒体,以及科学与工程范畴。NASA开发了一项应用,将其命名为IO(在线影像),IO 能够将影像文件名与所有相关元数据连接。然而,JSC 依然面临一大难题:如何将初始资源,以及自然资源向公众开发,以及如何对这些资源进行代码转换,使其空间占用更小,可利用率更高。