欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  互联网

八大行业大数据部署案例

程序员文章站 2024-02-05 18:34:10
全世界数据量正呈指数级上升,每18个月翻一倍。无论是关于大数据引起的问题,还是它带来的潜在效用,都是当下的热议话题。不过,除了议论,还有不少人付诸了实际行动。以下是八大行业的大数据部署案...

全世界数据量正呈指数级上升,每18个月翻一倍。无论是关于大数据引起的问题,还是它带来的潜在效用,都是当下的热议话题。不过,除了议论,还有不少人付诸了实际行动。以下是八大行业的大数据部署案例。

NOAA (国家海洋暨大气总署)国家气象局

NOAA的大数据业务已有50个年头。如今,NOAA管理的年数据量高达30 PB,每日能从卫星,船只,飞机,浮标,以及它处传感器收集超过35亿份观察资料。收集完毕后,NOAA会汇总大气数据,海洋数据,以及地质数据,进行直接测定,绘制出复杂的高保真预测模型,将其提供给NWS(国家气象局)。每日,NWS的模型会生成成千上万的数据——私营或公有部门(包括国防部,或宇航局)的气象预报员播报的气象警报,以及气象预报。

AM生物技术DNA序列分析解决方案

美国休斯顿是全国AM生物技术重镇。AM生物技术的工作重心,在于开发一项新技术专利:制造适配子(经化学改性,基于DNA的分子物质)。从特定血样分析的定量诊断,到人体特定部位的定向药物分配,适配子的用途十分广泛。若要制造适配子,需要进行亿万次DNA短链分析。分析产生的数据量极其惊人,需要使用CD-HIT ,以及Galaxy公司的网络大数据分析工具才能处理。

NARA电子档案存档

NARA (国家档案记录管理机构)是美国的官方记录管理机构。NARA 管理的信息量高达142TB(这个数字仍呈上升趋势),对象多达70亿, 记录范围涵盖:联邦机构生态系统,国会,以及各总统图书馆。这些记录经过数字化,以不同格式进行存储,存储格式多达4800种。同时,NARA正着手另一项进程:将400多万立方英尺德馆藏档案数字化。最迟至2016,NARA 95%的电子档案信息都会对研究者开放。NARA 建立了ERA(电子档案存档),将其作为“系统体系”,在不同的法律框架下,执行各类存档功能,并实行记录管理。

Vestas风能发电配置与维护

Vestas是一家丹麦风力公司,Vestas通过使用超级计算机,以及大数据模型解决方案,来精确定位其风力发电机,以达到最大发电量,并减少能源成本。公司将从全球天气系统中收集的数据,与公司现有发电机的数据结合,存储于风库中。目前,Vestas风库存有近2.8 PB数据。现有参数范围包括:地面至300英尺高空的气温,气压,空气湿度,空气沉淀物,风向,风速;以及公司的历史数据记录。Vestas还计划添加以下数据:全球森林砍伐追踪图,卫星图像,地理数据,以及月相与潮汐数据。

IRS顺从性数据仓库

1996年,, IRS (美国国税局)启动了一项计划,计划上传一年纳税数据,以作分析使用。这项计划发起后,CDW(顺从性数据仓库)应运而生,CDW 能够容纳的信息量超过1 PB 。多数旧数据都已经过结构化,然而,新数据都为半结构,或未结构化格式:电子纳税申请,国际税务合作,第三方XML(可扩展标示语言),或其它格式。从估算国家税收缺口,至身份盗窃预测,从纳税人税率测定,至政策变更对公民纳税的影响,IRS 研究小组会对各类职业数据进行分析。

UOIT(安大略大学理工学院)医疗监测

UOIT携手IBM,开展了Artemis计划, 希望提升医学监测技术,在生命体征达临界值之前,监测器能察觉出危险迹象,并发出警示——如院内感染症状。对于早产儿而言,院内感染具有高致命性,初发症状为:婴儿脉搏跳动异常,虽在安全范围内,但时快时慢不符常规。数据流分析软件是Artemis计划的基础所在, 其信息处理架构能基于连续数据流分析,提供第一手决策支持。

TerraEchos公司Perimeter入侵检测

TerraEchos 是一家技术公司,专营关键基础架构防护,以及监控技术。美国能源部实验室就是公司的客户之一,实验室的科学数据,技术,以及研究资源依赖于TerraEchos 的保护。实验室需要一项技术解决方案,以检测,分类,查找,并追踪潜在(机器及生化)威胁 ——能察觉千里之外的风吹草动。为达到这一目的,解决方案使用了传感器,分析软件,以及高性能计算技术,以持续应对从的海量流动数据,并对这些范围囊括人与动物活动,至大气条件的数据进行大量分析。

NASA人类航天影像收集,存档,以及管理

NASA JSC(约翰逊航天中心)是美国宇航员培训中心,以及ISS(国际空间站)任务操作的中枢所在。从1959年至今,JSC已收集400多万静态图像,总达950万英尺的16毫米胶卷,85000卷录像磁带,以及总时长81616小时的视频模拟及数码档案。这些收藏可用于媒体,以及科学与工程范畴。NASA开发了一项应用,将其命名为IO(在线影像),IO 能够将影像文件名与所有相关元数据连接。然而,JSC 依然面临一大难题:如何将初始资源,以及自然资源向公众开发,以及如何对这些资源进行代码转换,使其空间占用更小,可利用率更高。