浅谈网络安全的大数据解决之道–如何应对APT攻击

程序员文章站 2022-07-09 22:06:59

“大数据”已经成为时下最火热的IT行业词汇，各行各业的大数据解决方案层出不穷。究竟什么是大数据、大数据给信息安全带来哪些挑战和机遇、为什么网络安全需要大数据，以及怎样把...

“大数据”已经成为时下最火热的IT行业词汇，各行各业的大数据解决方案层出不穷。究竟什么是大数据、大数据给信息安全带来哪些挑战和机遇、为什么网络安全需要大数据，以及怎样把大数据思想应用于网络安全技术，本文给出解答。

一切都源于APT

APT（Advanced Persistent Threat）攻击是一类特定的攻击，为了获取某个组织甚至是国家的重要信息，有针对性的进行的一系列攻击行为的整个过程。APT攻击利用了多种攻击手段，包括各种最先进的手段和社会工程学方法，一步一步的获取进入组织内部的权限。APT往往利用组织内部的人员作为攻击跳板。有时候，攻击者会针对被攻击对象编写专门的攻击程序，而非使用一些通用的攻击代码。此外，APT攻击具有持续性，甚至长达数年。这种持续体现在攻击者不断尝试各种攻击手段，以及在渗透到网络内部后长期蛰伏，不断收集各种信息，直到收集到重要情报。更加危险的是，这些新型的攻击和威胁主要就针对国家重要的基础设施和单位进行，包括能源、电力、金融、国防等关系到国计民生，或者是国家核心利益的网络基础设施。

现有技术为什么失灵

先看两个典型APT攻击案例，分析一下盲点在哪里：

1、 RSA SecureID窃取攻击

1) 攻击者给RSA的母公司EMC的4名员工发送了两组恶意邮件。邮件标题为“2011 Recruitment Plan”，寄件人是webmaster@Beyond.com，正文很简单，写着“I forward this file to you for review. Please open and view it.”;里面有个EXCEL附件名为“2011 Recruitment plan.xls”；
2) 很不幸，其中一位员工对此邮件感到兴趣，并将其从垃圾邮件中取出来阅读，殊不知此电子表格其实含有当时最新的Adobe Flash的0day漏洞(CVE-2011-0609)。这个Excel打开后啥也没有，除了在一个表单的第一个格子里面有个“X”(叉)。而这个叉实际上就是内嵌的一个Flash；
3) 该主机被植入臭名昭著的Poison Ivy远端控制工具，并开始自BotNet的C&C服务器(位于 good.mincesur.com)下载指令进行任务；
4) 首批受害的使用者并非“位高权重”人物，紧接着相关联的人士包括IT与非IT等服务器管理员相继被黑；
5) RSA发现开发用服务器(Staging server)遭入侵，攻击方随即进行撤离，加密并压缩所有资料(都是rar格式)，并以FTP传送至远端主机，又迅速再次搬离该主机，清除任何踪迹；
6) 在拿到了SecurID的信息后，攻击者就开始对使用SecurID的公司(例如上述防务公司等)进行攻击了。

2、震网攻击

遭遇超级工厂病毒攻击的核电站计算机系统实际上是与外界物理隔离的，理论上不会遭遇外界攻击。坚固的堡垒只有从内部才能被攻破，超级工厂病毒也正充分的利用了这一点。超级工厂病毒的攻击者并没有广泛的去传播病毒，而是针对核电站相关工作人员的家用电脑、个人电脑等能够接触到互联网的计算机发起感染攻击，以此为第一道攻击跳板，进一步感染相关人员的U盘，病毒以U盘为桥梁进入“堡垒”内部，随即潜伏下来。病毒很有耐心的逐步扩散，利用多种漏洞，包括当时的一个 0day漏洞，一点一点的进行破坏。这是一次十分成功的APT攻击，而其最为恐怖的地方就在于极为巧妙的控制了攻击范围，攻击十分精准。

浅谈网络安全的大数据解决之道–如何应对APT攻击

从以上两个典型的APT攻击案例中可以看出，对于APT攻击，现代安全防御手段有三个主要盲点：

1、0day漏洞与远程加密通信
支撑现代网络安全技术的理论基础最重要的就是特征匹配，广泛应用于各类主流网络安全产品，如杀毒、入侵检测/防御、漏洞扫描、深度包检测。Oday漏洞和远程加密通信都意味着没有特征，或者说还没来得及积累特征，这是基于特征匹配的边界防护技术难以应对的。

2、长期持续性的攻击
现代网络安全产品把实时性作为衡量系统能力的一项重要指标，追求的目标就是精准的识别威胁，并实时的阻断。而对于APT这种Salami式的攻击，则是基于实时时间点的检测技术难以应对的。
【注】Salami是指意大利式香肠。意大利香肠术就如同通常被切成许多薄片的意大利香肠，从大的意大利香肠中抽去一、二片从不会被注意到。因此在计算机犯罪中使用意大利香肠技术，能使报表金额总数没有明显误差，而细目则被非法挪用或张冠李戴。

3、内网攻击
任何防御体系都会做安全域划分，内网通常被划成信任域，信任域内部的通信不被监控，成为了盲点。需要做接入侧的安全方案加固，但不在本文讨论范围。

大数据怎么解决问题

大数据可总结为基于分布式计算的数据挖掘，可以跟传统数据处理模式对比去理解大数据：
1、数据采样——>全集原始数据（Raw Data）
2、小数据+大算法——>大数据+小算法+上下文关联+知识积累
3、基于模型的算法——>机械穷举（不带假设条件）
4、精确性+实时性——>过程中的预测

使用大数据思想，可对现代网络安全技术做如下改进：
1、特定协议报文分析——>全流量原始数据抓取（Raw Data）
2、实时数据+复杂模型算法——>长期全流量数据+多种简单挖掘算法+上下文关联+知识积累
3、实时性+自动化——>过程中的预警+人工调查

浅谈网络安全的大数据解决之道–如何应对APT攻击

通过传统安全防御措施很难检测高级持续性攻击，企业必须先确定日常网络中各用户、业务系统的正常行为模型是什么，才能尽早确定企业的网络和数据是否受到了攻击。而安全厂商可利用大数据技术对事件的模式、攻击的模式、时间、空间、行为上的特征进行处理，总结抽象出来一些模型，变成大数据安全工具。为了精准地描述威胁特征，建模的过程可能耗费几个月甚至几年时间，企业需要耗费大量人力、物力、财力成本，才能达到目的。但可以通过整合大数据处理资源，协调大数据处理和分析机制，共享数据库之间的关键模型数据，加快对高级可持续攻击的建模进程，消除和控制高级可持续攻击的危害。

虚拟还是现实

用美剧《疑犯追踪》中讲述的场景作为本文的结束。The Machine发现中情局某工作人员在最近一年内每个月同一天的同一时间都会在同一个加油站停留40分钟，而最这家加油站的老板是中东人，最近又发现这个老板曾经帮某恐怖组织的一个成员购买过机票，The Machine给出警告：这个中情局的工作人员有问题。经人工调查审讯，供认不讳。

上一篇： TCP细节探究:TCP数据交互

下一篇： IPC进程间通信