编辑推荐

网易数帆开源API网关与容器云项目，让云原生生产落地“多快好

网易汪源：统一负载与多云环境的“开放姿态”，才是云原生

网易数帆如何用 Kubernetes“原语”搞定云原生中间件

快手打新挤爆券商系统，网易数帆推出券商稳定性保障方案

探索智慧校园新模式，网易有数在教育行业的实践分享

金融行业大数据治理之路——数据模型篇

网易易盾CTO朱浩齐：我们需要什么样的内容安全治理体系？

网易易盾2020-04-11 15:18

导读：《网络信息内容生态治理规定》正式实施前夕，《中国信息安全》杂志（以下将简称“杂志”）向网易易盾CTO朱浩齐约稿，希望朱浩齐能从网易易盾治理和实践出发，分享他在内容安全领域的认知。约稿的文章发表于杂志2020第二期（见杂志P73，标题为《构建全链路内容风控体系解决内容安全难题》），后来文章也发布在中国信息安全官方微信公众号上。出于希望能帮到更多的平台更好的认知和做好内容安全，网易易盾公众号重发此文，以下为详细内容：

日前，国家互联网信息办公室发布了《网络信息内容生态治理规定》（以下简称《规定》），以系统化思维和更为综合的量化指标，丰富和完善了互联网信息内容标准，为网络信息生态建设确立了基本的内容标准体系。随着2020年3月1日《规定》实施日期的临近，越来越多的内容平台如临大考，负责人不断审视自身的内容生态治理体系，对平台的内容安全能力是否合规进行考量。在此，笔者想通过这篇文章阐述：内容安全治理现状、治理的难点以及什么样的内容安全体系才符合当下的治理要求。

一、内容安全治理现状

近几年，我国在内容安全治理方面呈现出以下几个特点：

一是，监管部门覆盖度广、政策法规日趋完善。近几年，各部门针对不同领域的规章制度频发，例如《网络音视频信息服务管理规定》、《未成年人节目管理规定》、《儿童个人信息网络保护规定》、《中华人民共和国英雄烈士保护法》、《互联网宗教信息服务管理办法》等，可以看出我国在网络内容治理方面的法律法规越来越完善。

笔者在此想特别强调一下法律法规下责任主体的问题。用一个场景举例来说，某用户在内容平台发表了色情广告信息，用户和内容平台此时的行为都属于违法行为，应该对这两个主体都进行处罚，但从实际情况来看，对于用户追责成本非常之高，所以在大多数内容违规事件上，一般只是对内容平台进行了处罚。再举另一个场景，某恶意用户通过网络攻击的方式篡改网站，并发布色情内容信息，此时运营平台不仅违反了内容管理的相关规定，同时依据《网络安全法》，运营方没有落实好信息系统保护的要求，对此也会给予一定的处罚。

二是，针对性的专项治理行动非常密集。2019年内，相关监管部门发起的专项行动就有四次：

1、“护苗2019”专项行动：全国“扫黄打非”办公室作出专门部署，于2019年3月至11月间大力组织开展“护苗2019”专项行动，旨在持续净化社会文化环境。

2、“净网2019”专项行动：全国“扫黄打非”办公室于2019年3月至11月间大力组织开展“净网2019”专项行动，旨在持续净化社会文化环境。

3、“剑网2019”专项行动：是国家版权局等单位联合开展的一项专题活动，旨在维护清朗的网络空间秩序，营造良好的网络版权环境。

4、网络音频专项整治行动：国家网信办会同有关部门于2019年年中开展网络音频专项整治。目的是坚决有效遏制行业乱象，积极规范行业发展，促进网络生态持续向好。

以上两个特点，表明了我国对于建设风清气正的网络空间环境的决心。

二、内容安全治理的难点

即使在如此强的监管力度之下，违规内容还是层出不穷。主要原因是违规内容具有覆盖场景多、数据变种多、对抗性强等。

1、覆盖场景已经到了无孔不入的地步。新闻内容、用户评论、用户头像、昵称、看网剧弹幕，任何一个有内容发布的场景都很难躲过违规内容的骚扰；

2、在各种场景里，出现的违规数据种类和变种也非常之多。从最初的文本敏感词，到现在的字体拆分、特殊符号混淆、以及图片内嵌入违规内容等多种形式，最近一两年在语音方面又多了一个ASMR（Autonomous sensory meridian response，自发性知觉经络反应）的内容类型，夹杂着很多色情内容；

3、对抗性强，体现在违规内容的发布上有一定的组织性和对抗性，以内容形式的变换和账号的变化来对抗检测或运营策略。

在此背景下，做好内容安全其实是一个比较困难的问题。

首先是成本投入，最主要的是人力成本和设备成本。人力成本方面，当下互联网用人成本很高，一个成熟的算法专家年薪在50万左右。而且整个体系需要的不仅是算法人员，还有相关的运营专员、审核专员、策略专员。如果配备完整，一年在人力方面的投入就会有上千万。在设备方面，现在图像处理所需要用到的GPU节点是比较大的开销。

其次，是数据积累和审核经验的壁垒。一个图片检测模型需要有几万甚至几十万的样本数据，没有一定的时间和渠道是无法完成这种样本数据积累的。另外，审核人员的经验决定了主观上的审核效果和效率，完善的流程和制度是对效果客观上的保障。审核人员的经验积累要靠不断的学习和培训，流程和制度则需要时间去制定和完善。

三、当下需要什么样的内容生态治理体系？

现在内容安全领域的黑灰产对抗非常激烈。拿国内某社交媒体平台的现象举例，以往的色情账号会在各个热点事件下直接发布色情言论——直接给出色情网站，或者放出联系方式，这种形式比较容易被内容安全系统检测和封号。现在对抗的形式，已经转变为账号头像换成比较性感，但不属于色情的图片，发表的内容多是正常的评论，但个人头像里都是隐晦的色情引流信息，以此来增强对抗性。

在这种强对抗的背景下，仅仅做内容的检测是远远不够的，不仅检测效果差，还会留下许多死角，给业务带来潜在的内容违规风险。我们认为，内容生态的治理不仅是对内容进行处理，还需要纵深的检测防御体系进行辅助。这是因为大多数的违规内容是非正常用户发布的，内容生态的治理是企业和黑灰产的直接较量，只做内容检测手段过于单一，或落入疲于应对的局面。

因此，网易易盾面向自己的客户推出了全链路内容风控体系。该体系在文字/图片/音频/视频内容检测引擎的基础上，融入了反作弊风控引擎和7*24H策略运营管家服务，在智能内容检测引擎精准确识别违规内容前提下，通过多维度用户行为检测，全面掌控每个可能影响内容风控的环节，从而降低内容安全风险。

网易易盾全链路内容安全风控体系

纵深防御

全链路内容风控体系是易盾从源头进行内容安全治理的具体体现，贯穿了用户全生命周期的纵深防御体系——从账号注册、登录、用户行为、内容发布以及登出。其背后，运用了多个技术对用户进行画像，包括人机识别、风险名单、IP画像、设备模型、行为模型、业务模型、关联分析和规则系统等。

对于上面提到的技术，拎出验证码和反作弊单独说明下。人机识别主要是通过验证码来提高黑灰产的攻击成本，这块不能用字符型验证码，因为早期的验证码非常容易被破解，利用OCR识别技术，即可批量化突破人机识别。网易易盾使用的是图标点选、推理拼图式的智能型验证码，能获取用户的行为信息和设备信息进行分析判断。反作弊的分析，是包括了事前预防、事中检测处置、事后分析回馈的三个环节，最后一个环节不容忽视，因为基于长周期的离线数据分析，能够作用于事前风控和事中风控。

黑灰产的动机很纯粹，即“获利”，通过全链路内容安全风控体系，能提高黑灰产的攻击成本，让投入产出比不对等，从而放弃攻击，转战其他平台。

最后介绍下网易易盾，我们是国内领先的内容安全&业务安全服务商，依靠网易20多年丰富的安全经验以及云计算、人工智能方面的积累，面向数字化业务提供内容安全、业务安全、移动安全和网络安全服务，保障客户业务合规、稳健和安全运营，免受黑灰产组织非法侵害，从而专注创新发展。

内容安全治理路上任重道远，期望和各方携手前行。