知物由学 | AI时代,那些黑客正在如何打磨他们的“利器”?

达芬奇密码2018-07-16 17:10
“知物由学”是 网易云易盾 打造的一个品牌栏目,词语出自汉·王充《论衡·实知》。人,能力有高下之分,学习才知道事物的道理,而后才有智慧,不去求问就不会知道。“知物由学”希望通过一篇篇技术干货、趋势解读、人物思考和沉淀给你带来收获的同时,也希望打开你的眼界,成就不一样的你。当然,如果你有不错的认知或分享,也欢迎通过邮件(zhangyong02@corp.netease.com)投稿。

机器学习(ML)正在迅速的被用来应对网络安全领域以及其他技术领域,在过去的一年中,关于机器学习在防御和攻击方面的使用已经有了大量的实例。虽然大多数文章都涉及到哲学论证方面(我推荐阅读“ 网络安全中的机器学习的真相 ”[1]),但是,网络犯罪分子的机器学习似乎已经被描述的与我们想象的并完全不一致了。

尽管如此,美国情报界也非常高度关注人工智能[2]。最近的调查结果显示网络犯罪分子正在研究如何利用机器学习来使攻击更猛烈、更快、更便宜地执行。

本文的目标是系统化有关恶意网络机器学习部署的可能涉及到的现实生活方式的信息。它旨在帮助信息安全团队的成员为即将发生的威胁做好准备。

1.网络犯罪分子的任务:

所有网络犯罪分子都可以通过机器学习辅助完成相关任务,例如从最初信息收集开始、到引起系统妥协,可以分为以下几类:

  • 信息收集——准备攻击。
  • 假冒——企图模仿。
  • 未经授权的访问——绕过限制访问某些资源或用户帐户。
  • 攻击——执行实际的攻击,如恶意软件或DDoS。
  • 自动化——自动化开发和后期开发。

2.信息收集的机器学习:

信息收集是网络攻击的第一步,无论是针对个人攻击还是针对多人攻击。你收集到的信息越好,你就会有更好的攻击成功的机会。

至于钓鱼或感染准备,黑客可能会使用分类算法将潜在受害者描述为属于可以攻击的群体。想象一下,在收集了数以千计的电子邮件之后,你只会将恶意软件发送给那些更有可能点击链接的人,将其标记为可攻击群体,从而降低安全团队参与的可能性。在这里可能有很多因素都能起到帮助,举一个简单的例子,你可以将他们在社交网站上撰写的IT主题的用户与专注于食物和猫的用户区分开来。作为攻击者,我会选择后者,因为他们根本就不懂网络攻击到底是什么。这些区分可以使用从K均值和随机森林到神经网络的各种聚类和分类方法来完成。

关于针对性攻击的信息收集,它的任务不是收集尽可能多的个人攻击目标,其使命是尽可能多地获得相关基础设施的信息。这个想法是自动化所有的检查,包括有关网络基础设施的信息收集。虽然现有的网络扫描仪和嗅探器等工具可以分析传统网络,但基于SDN的新一代网络太复杂了。这就是机器学习可以帮助到的地方。一个鲜为人知的但有趣的概念是知道你的敌人(Know Your Enemy)攻击[3],允许隐藏情报收集目标SDN网络的配置;这是将机器学习应用于信息收集任务的一个相关示例。黑客可以收集的信息是从安全工具和网络虚拟化参数的配置到QoS等一般网络策略。通过分析来自一个网络设备的规则然后推演出其他网络的条件以及规则的类型,攻击者可以推断出有关网络配置的敏感信息。

在探测阶段中,攻击者试图触发特定交换机上流量规则的安装,探测流量的具体特征取决于黑客感兴趣的信息。

在下一阶段,攻击者分析探测阶段产生的探测流量与安装的相应流量规则之间的相关性。从这个分析中,他或她可以推断网络策略针对特定类型的网络流量执行。例如,攻击者可以通过在探测阶段使用网络扫描工具来筛选网络流量来实现防御策略。如果你手动执行此操作,则可能需要数周才能收集数据,你仍然需要具有预配置参数的算法,例如,决定需要多少特定数据包很难确定,因为数量取决于各种因素。在机器学习的帮助下,黑客完全可以自动化这个过程。

这是两个例子,但一般来说,所有需要大量时间的信息收集任务也可以自动化。例如,可以通过添加一种遗传算法,LSTM或GAN来生成与现有目录更相似的目录名称,来改进用于扫描可用目录和文件的工具DirBuster。

3.机器学习模拟攻击:

网络犯罪分子利用冒名形式以各种方式攻击受害者,这大部分是需要取决于交流渠道。攻击者能够说服受害者在发送电子邮件或使用社交工程后跟踪利用或恶意软件的链接。因此,即使打电话也被认为是冒充的手段。

电子垃圾邮件是使用机器学习的最安全的领域之一,在这里,我预计ML将成为网络犯罪分子首先应用的领域之一。他们不是手动生成垃圾邮件,而是“教”一个神经网络来创建看起来像真正的电子邮件的垃圾邮件。

但是,在处理电子垃圾邮件时,我们很难模仿一个人发邮件的规律。但问题是,如果你通过电子邮件要求员工更改密码或公司软件管理员下载更新,这是无法以与管理员完全相同的方式进行编写。除非你看到一堆电子邮件,否则你将无法复制样式。即便如此,这个问题也可以通过网络钓鱼来解决。

社交媒体网络钓鱼比电子邮件网络钓鱼的最大优势是公开性和便于访问到的个人信息。你可以通过阅读他或她的帖子来观看和了解用户的行为。这个想法在最近一个名为“社会工程数据科学化”的研究[4]中得到了证明 - Twitter上的自动E2E鱼叉式网络钓鱼。这项研究提出了SNAP_R,这是一个自动化的工具,可以显着增加钓鱼攻击活动。有了它,传统的自动钓鱼攻击可以提升大约5-14%的准确度,而手动钓鱼的钓鱼攻击则有45%。他们的方法恰到好处,准确率达到30%,在某些情况下甚至达到了66%。他们使用马尔科夫模型根据用户以前的推文生成推文,并将结果与当前的神经网络,特别是LSTM进行比较。LSTM提供更高的准确度,但需要更多的时间来训练。

在人工智能的新时代,企业不仅会制造假冒文字,还会制造虚假的声音或视频。Lyrebird是一家专注于模仿声音的媒体和视频的创业公司,他们展示了可以制作出与你完全发音相同的机器人。随着越来越多的数据出现和不断发展的网络,黑客可以获得的东西也就越来越多,自然而然成功的几率也就越高。由于我们不知道Lyrebird是如何工作的,所以黑客可能无法使用这个服务来满足自己的需求,但是他们可以发现更多的开放平台,比如Google的WaveNet[5],它们可以做同样的事情。

值得注意的是,那些黑客们现在正在应用生成敌对网络(GAN)——一种更先进的神经网络类型。

3.利用机器学习进行未经授权的访问

接下来是获得对用户帐户的未经授权的访问。想象一下网络犯罪分子需要未经授权访问用户的会话,显而易见的方法是不断的去尝试密码登录。对于大规模的黑客行为,其中一个非常恼人的事情是验证码。许多计算机程序可以解决简单的验证码测试,但最复杂的部分是对象分割,有许多研究论文描述了验证码验证方法。2012年6月27日,Claudia Cruz,Fernando Uceda和Leobardo Reyes发表了该领域的机器学习的第一个例子。他们使用支持向量机(SVM)的方法来破解在reCAPTCHA图像上运行的系统,其准确率为82%,并且所有的验证码机制都得到了改善。但是之后,出现了一大堆利用深度学习方法破解CAPTCHA的论文。2016年,有文章[1]发表详细说明了如何使用深度学习以92%的准确率打破简单验证码。

另一项研究是使用了图像识别领域的最新进展之一[2],具有34层的深度残留网络,打破印度流行网站IRCTC的CAPTCHA,准确率达到95-98%。这些论文大多采用基于字符的CAPTCHA。

其中一个最鼓舞人心的论文是在BlackHat会议上发布的,这项研究被称为“我是一个机器人”。他们打破了最新的语义图像CAPTCHA的记录,并比较了各种机器学习算法,并且打破了Google的reCAPTCHA的记录,准确率达到98%。

更让人敬畏的是,一篇新的文章指出,科学家称即将推出100%的CAPTCHA验证方法。网络犯罪分子可能在机器学习的帮助下找到另一个领域是暴力破解密码。

在深度学习成为热门话题之前的很长一段时间里,马尔可夫模型是2005年用来产生密码“预测”的第一个模型。如果你熟悉当前的神经网络和LSTM,你可能已经听说过一个基于训练的文本生成文本的网络,例如,如果你给这个网络一个莎士比亚的作品,它会根据它创建一个新的文本。同样的想法也可以用来生成密码。如果我们能够使用最常见的密码来训练网络,并且可以生成许多类似的密码。研究人员采用这种方法, 将其应用于获取密码并获得了不错的结果,这比传统的方式更好地创建密码列表,例如将字母更改为符号,例如从“s”到“$”。

另一种方法是在论文“PassGAN:密码猜测的深度学习方法 [3]”之一中提到的,研究人员使用GAN(生成对抗网络)来生成密码。GAN是由两个网络组成的特殊类型的神经网络; 一个通常被称为生成性的,另一个是有区别性的。当一个网络产生敌对的例子时,另一个是测试他们是否可以解决一个问题,其核心思想是根据最近发生的数据泄露所收集的密码真实数据来训练网络。在发布了来自所有违规的14亿个密码的最大数据库之后,这个想法的实现对于网络罪犯来说看起来很有希望。

4.利用机器学习进行攻击

网络犯罪分子想要利用机器学习的第四个领域就是实际的攻击。总体而言,攻击有三个总体目标:间谍活动,破坏活动和欺诈行为。这些恶意软件、间谍软件、勒索软件或任何其他类型的恶意程序都是由网络钓鱼或攻击者将其上传到受害者的计算机上而造成的。无论如何,攻击者都需要以某种方式将恶意软件上传至受害者机器上。

使用机器学习来保护恶意软件可能是第一个在网络安全领域进行机器学习的商业成功的应用,现在已经有很多篇论文描述如何使用人工智能(AI)检测恶意软件的不同技术。

网络犯罪分子如何利用机器学习来制造恶意软件?第一个众所周知的用于创建恶意软件的AI例子是在2017年发表的一篇名为“基于GAN的黑盒攻击产生敌手恶意软件的例子” 的论文中[4]提出的,作者建立了一个名为MalGAN的网络。

该研究提出了一种生成恶意软件实例的算法,能够绕开基于黑箱机器学习的检测模型。它所提出的算法比传统的基于梯度的生成算法实例要好得多,并且能够将检测率降低到几乎为零。系统以原始恶意软件样本为输入,基于样本和一些噪声输出敌对样本。神经网络的非线性结构使他们能够生成更复杂,更灵活的例子来欺骗目标模型。

我之前提到有三个主要的攻击目的:间谍,破坏和欺诈,其中大部分是由恶意软件执行的。不过,还有另外一种相对较新的攻击方式,可以被视为破坏行为,被称为Crowdturfing[5]。简而言之,是恶意使用众包服务。例如,攻击者向工作人员支付一些现金,为竞争业务写入不好的在线评论。由于是真实的人写的,这些评论往往不被发现,因为自动化工具正在寻找软件攻击者。

其他选项可能是海量的,DoS攻击或者是假信息的产生。在机器学习的帮助下,网络罪犯可以降低这些攻击的成本并实现自动化。 2017年9月发布的“在线评论系统中的自动化人群攻击和防御”研究论文介绍了一个系统,该系统生成对Yelp的虚假评论。好处不仅仅是无法检测到的很好的评论,而是比人类评分更高的评论。

5.网络犯罪自动化的机器学习

有经验的黑客可以使用机器学习在各个领域自动完成某些必要的任务。因此很难说什么时候是自动化的,但是由于网络犯罪组织有成百上千的成员,可能会出现不同类型的软件,也可能会支持更多的我们意想不到的方式。

至于具体的网络犯罪,还有一个新术语——Hivenet[6]-它们是聪明的僵尸网络。这个想法的大概内容是,如果僵尸网络是由网络犯罪分子手工管理的,那么蜂巢网络可以有一个大脑来支撑完成一个特定的事件,并根据事件改变它的行为。多台机器人同时处在设备上,根据任务,他们将决定现在谁将使用受害者的资源,就像生物体中的一串寄生虫。


云安全(易盾)基于网易20年技术积累及安全大数据,为互联网各行业提供反垃圾、验证码、注册保护、登录保护、活动反作弊、应用加固、DDoS 防护等整体安全解决方案,全程提供完善的技术支持,助力产品建立安全防护体系。