小红书下架背后,UGC平台内容审核难在哪儿?

2019年7月29日,有用户反馈小红书在应用宝及华为、OPPO等手机厂商的应用商店显示无法下载。燃财经登陆某安卓应用商店,小红书APP显示内部优化中,暂不提供下载,而iOS系统目前还能下载。有报道称,iOS系统下的App Store近期也会下架小红书。

对此,小红书7月30日回应称,已了解到该情况,正在和有关部门积极沟通。对于下架原因,各种报道的推测包括涉黄涉“黑医美”等违规种草、被用户举报、内容或数据违规等,小红书方面未予以证实。

从跨境电商到内容社区,六年多以来,小红书聚集了2亿多用户,2018年时估值已达30亿美元。其高速发展和陷入争议都源于UGC(用户生产内容)模式,一方面,大量真实案例分享与产品功效介绍笼络了一大批用户;另一方面,巨大的流量吸引了不少灰产,烟草软文、虚假种草产业链、违禁医美药品等都曾引发外界质疑。

去年以来,对于内容平台来说,强监管的警报信号密集响起。快手、火山小视频、网易云音乐、荔枝FM、喜马拉雅也曾经历过下架风波,为了减少内容风险,各家除了建立自己的风控体系、强化人工运营和审核之外,一些公司也会找第三方合作,探索更多内容审核方式。

一家为各类平台提供审核服务的公司对燃财经表示,目前在人工智能的辅助下已经能够实现关键词黑名单、专家干预、贴标签机器学习和无监督机器学习等方式拦截有害内容,再配合以舆情监控和人工审核,能够帮助企业大大提高效率。

对于内容社区来说,不断提升审核能力将是未来平台治理的一大任务。小红书原本在商业化之路上就面临着平衡用户体验和合理变现的挑战,如今,强化审核走向合规成为了更急迫的命题。

种草沃土滋生黑产

最早将“种草”发展成一种商业模式的小红书,正深陷“种草”效应扩大后失控的场面。

早在2019年4月就有报道称,在小红书APP上输入“烟”进行关键词搜索,页面提示有9.5万条“笔记”,搜索“女士”、“女烟”等也会出现与“电子烟”相关的“测评”和“体验报告”,背后有很多是烟草营销机构。

由于国家明令禁止烟草广告,小红书上的烟草软文一经发现立刻遭到质疑。随后小红书下线了烟草类笔记。

 

此后不久,小红书又被爆出虚假种草产业链,代写代发种草文章可根据粉丝数量明码标价,点赞、转发、上热门均可人为操纵。一时间,小红书遭遇信任危机。

针对此次事件,小红书推出新版的《品牌合作人平台升级说明》,只有经过小红书平台审核成为“品牌合作人”后,KOL才可在小红书上接广告。提高门槛后,近2000名KOL被取消资格。清洗KOL的行为一度引发恐慌。

另一方面,小红书加大了对平台的审核力度。小红书方面称,公司有几十人的反作弊团队,500人的审核团队,以及100多套数据模型打击代写、刷量等作弊行为。据小红书发布的2019第二季度社区反作弊报告显示,平台平均每天清理刷量笔记4285篇,每天有920篇人工刷量笔记被清理,平均每5分钟清理18.6个刷量账号。

 

小红书还推出了“小红心”评分体系,根据社区热度和商城销量的综合排名来筛选参与评分的单品,邀请一年内购买过该产品的用户参与评测,得出类似日本“COSME大赏”的榜单。小红书APP显示,目前有3702件全球热门好物进入小红心评分体系,有518296位使用者真实评测。

这一切看起来使小红书在朝着更好的社区生态发展,但7月29日,有媒体报道小红书借种草卖人胎素等违禁药,推广微整形速成班,平台上的用户以种草的名义为未获准入的韩国品牌“粉毒”、“白毒”等各种肉毒杆菌引流,下单后即可推荐相应地区的工作室进行急性肉毒杆菌注射。另外还有各种推广“微整速成班”的笔记,有师资造假已遭大学澄清的机构仍然在小红书上推广。

报道称,以“粉毒”为关键词在小红书搜索,平台会出现许多看似科普或“种草”的文章,实际上是隐性售卖医美产品的“广告”,甚至有网友直接晒出注射的亲身体验。而这些品牌并不符合国家准入标准,属于违禁药品。

形形色色的违禁广告,改头换面包装成“种草“笔记,又大大方方出现了。

小红书在这件事情之后遭到下架,不少人猜测“违禁医美种草”是其下架原因。但小红书方面否认这一说法并表示,“被应用商店暂时下架的情况有很多种,公司正在和主管部门沟通,沟通情况很积极,请关注后续进展。”

强监管下的自我审核

一直以来,内容平台涉黄涉赌的问题都是平台审核和政策监管的“重灾区”。

2019年6月,国家网信办曾对吱呀、Soul、语玩、一说FM等26款违法违规音频平台,分别采取约谈、下架、关停服务等阶梯处罚。网易云音乐、荔枝FM、企鹅FM、喜马拉雅、最右、探探等APP也在今年经历了下架。

2018年4月,快手、火山小视频安卓版APP也曾被下架整改,要求全面清查库存节目,对低俗、暴力、血腥、色情、有害节目立即下线。

内容社区不断的自我审核与外部监管并存基本成为常态。强监管之下,对于内容平台的审核能力提出了更高要求,一些企业也探索了新的方式。

张一鸣曾发道歉信表示强化总编辑责任制,全面纠正算法和机器审核的缺陷,不断强化人工运营和审核,将6000人的运营审核队伍扩大到10000人。

除了通过内容质量中心严把内容质量关外,今日头条还建立了打击低俗的人工智能小程序“灵犬系统”,输入文字或文章链接,系统即可检测内容质量指数,并给出算法模型的鉴定结果,配合人工审核进行内容质量把控。

 

就在2019年7月30日,“灵犬3.0”发布,升级了识别类型和模型能力,支持图片识别(反色情低俗、反血腥暴力)和文本识别(反色情低俗、反暴力谩骂、反标题党)。

快手则在下架风波时回应称正全面整改中,采取对现有库存视频加大清查力度、控制每日短视频上传总量等7大措施,并将审核团队从2000人扩充至5000人。其招聘信息显示,“内容审核编辑”的工作要求为:审核用户上传到快手的视频、图片、评论的合法性、合规性,对违规账号进行合理处置,维护社区的绿色与健康。

除了建立自己的风控体系之外,一些公司也会去找第三方合作。

为各类平台提供审核服务的从业者江洋对燃财经表示,人工审核和机器审核相辅相成,有一部分机器不能拦截到的东西,通过人工去提供一些标签,算法就可以去验证,同时捕捉到跟这个账号有关联的群组和账号,这样效率会更高。

内容审核难在哪儿?

即使企业大力审核,各类APP仍然难逃被下架的命运。那么,内容审核难在哪儿?有哪些新模式与技术应用在审核上?

江洋告诉燃财经(ID:rancaijing),目前审核方面的技术已经经历了四个阶段。

第一代审核解决方案以名单类(如黑名单)等方案为主,技术上比较简单,建立基于数据的名单,根据一些关键词,并通过大数据AI技术收集数据名单中的有效信号,拦截相关信息。

第二代审核方式由公司启用专家系统,即把行业专家多年积累的风控和业务知识通过系统的方案固化下来,做出一些拦截欺诈的规则模型,并在风控中做一些自动化的决策。比如可以设置一个账号发广告不能发超过50条,到第51条账号就会被封。

第三代开始了机器学习,或者说有监督的机器学习。即给风控案例或数据做一些标签,通过各种机器学习的手段,把它固化成模型,通过不停的迭代,做风控和反欺诈方面的决策。

他举例,比如系统监测到某账号或登陆IP之前有过欺诈行为,通过这些有限的数据让机器去学习,总结出一些规则来拦截。例如有的用户把涉黄的词汇用拼音代替,或加一个隔断符号,机器可以通过一千条类似的文本学习到这个规则,有效拦截掉类似的不良内容,这种方法强依赖于大量打上标签的数据。

第四代审核技术则进入了无监督的机器学习,对于很多缺乏标签的问题和不断更新进化的新问题,运用无监督机器学习检测信息。

 

江洋表示,现代的欺诈和黑产趋向于群组性的行动,这样的组织甚至有上中下游产业链,可能购买了1万个账号通过群控的软件发布违规信息。这些账户的行为比较异常,且多个账号有紧密联系,无监督机器学习就是利用了这一点,比如账号注册时间在某个时间段内,IP有时在美国,有时在越南,账号之间可能存在过交易行为,交易数额在一定范围内。在这样的情况下,即便没有数据贴标签,系统也能捕捉出来群组进行拦截。

他举例解释第三代和第四代的差别,比如一群猫和狗混在一起,有监督的机器学习需要一条一条的列出猫的胡须长、走路更轻等,把这些特征各打一个标签,再到群组里去识别匹配,而无监督的机器学习是在没有标签的时候,通过这些动物之间的特性和关系来区分。

但是,如果不是有组织大批量的账号行为,可能就需要人工审核或其它舆情监测的平台来辅助。目前各平台采用的多是系统拦截加人工的方式,有规则、黑名单、人工智能风控,也有人工审核,二者结合进行欺诈信息和不良内容的清洗。

除了技术因素之外,平台的主观选择也是一大重要因素,很多社交平台存在涉黄问题,但如果不打擦边球,平台活跃度可能降低。所以,在审核上,一方面黑产组织在不断与规则作斗争,开发新模式,再加上用户数巨大,技术加人工的审核难度依然不小,另一方面,平台在权衡内容和活跃度的时候,也要做出取舍。

推荐虚假种草帖需担责

小红书平台上用户发布违规内容,板子是否该打到小红书身上?

中国政法大学传播法研究中心副主任朱巍对燃财经表示,小红书上的“种草帖”本质上就是广告,因为它们都可以通过内容引流直接变现,按照2016年《互联网广告管理暂行办法》的规定,媒介方平台经营者、广告信息交换平台经营者以及媒介方平台成员,对其明知或者应知的违法广告,应当采取删除、屏蔽、断开链接等技术措施和管理措施,予以制止。

朱巍指出,假如一个用户发布了内容,平台没有推荐,点击量不高,小红书不承担责任。但如果是一些小红书进行算法推荐且内容达到很高的浏览量和成交额的内容出了问题,或是用户举报平台不处理、竞价排行内容出问题、卖家留的联系方式是虚假等情况,小红书要承担连带责任。

 

“小红书的模式可以说是社交电商中最成功的一种模式,获得了大量用户的信任。现在问题出来,对小红书来说未必是坏事。小红书应该把篱笆墙扎好,用更高的水平来要求自己。这并非是提高运营成本,而是以用户的信任和保障产品质量为基础,将来会更多地占有市场。”朱巍表示。

小红书原本在商业化之路上就面临着保证用户体验与合理变现的挑战,如今,强化审核走向合规成为了更急迫的命题。

来源:燃财经

海量内容时代,平台们该如何主动应对审核难题?

时间来到2019年年中,Facebook全球月活已经突破22亿,Youtube是19亿,微信也超过10亿,可以说互联网已经覆盖了全球大部分人口,而随着使用人口同步激增的还有用户时长,以及内容的生产消费量级也呈指数级井喷,这海量的内容无论对大平台还是小公司都形成了巨大的管理难度和审核挑战。

2018年Facebook 上每天上传的照片超过3亿张,每分钟发布51万条评论,30万条新状态;每天在Instagram上的照片和视频分享量为9500万次;而在微信朋友圈,每天有10亿张图片被上传。截止 2018 年,每天约有2.5万亿字节的数据被创建,过去两年里生成的数据占到了全球总数据的90%,而预计到 2022年,全球互联网流量讲达到每秒 7.2 PB。

而在内容数量井喷的同时,内容的形式也在不断变化。除了传统的图文类内容,音频、长视频和短视频,以及直播的比例在不断增加,这对于那些那些既追求实时性(发布速度和用户体验)、又追求不出问题(举报率和负面事件)的内容平台审核管理,提出了巨大而严峻的挑战。

而包括Facebook和Youtube在内的国际顶级UGC平台,如今在这类老生常谈的问题上依然十分吃力,尤其是发达国家最为在意的低龄内容、种族和性别歧视和跨国文化/宗教等问题,它俩其实一直未能交出一份让各方满意的答卷。

而国内今年比较知名的互联网内容社区类产品里,下架甚至关停的已经不下于0余款,尽管它们各自都有各自的问题,比如色情内容、微商、内容涉政等等,但归根结底,这还是用户激增带来的日益增长的内容生产量和无法跟上的审核措施和效率之间的矛盾。

一、Facebook:用AI和算力应对海量内容

Facebook在整个2018年遭遇过巨大的信任危机,除了数据接口和用户隐私的处理不当、通俄门和假新闻等丑闻,平台上的内容审核政策也受到严重质疑。

但其实,它背后的核心问题是,这家公司本就是世界互联网内容吞吐量最大的平台。

而这些内容并不只在Facebook app发布和消费,还在这家公司旗下月活15亿的Whatsapp 、13亿的Facebook Messenger和10亿的Instagram上面传播和推广,所以这家公司承受的内容审核压力才会如此之大。

那么Facebook拿出的应对措施是什么?

在去年那场著名的美国国会听证会上,扎克伯格在一小时内提及AI三十余次,坚称AI是平台内容审核的答案,他的原话是:“未来的五到十年,AI将成为世界上最大的社交网络的捍卫者,在全球范围内解决其最紧迫的问题,同时也帮助公司回答有关审核、公平和人类无节制等棘手问题。”

小扎自称,Facebook上99%有关ISIS和基地组织的内容,都在人们看到之前被人工智能系统标记,并且被删掉。

但AI想要和内容审核结合并落地,他必须拿出一些具体的手段来。Facebook现在的审核分为文字审核、图片和视频审核,以及大量的人工配合。

文字审核方面,Facebook推出了DeepText(深度文本)引擎,利用深层神经网络架构去理解那些帖子的内容,据称它能够以近乎人类的精确度、每秒同时理解数千篇文章的文本内容。相比国内的各大平台的审核体系来说,它的优势除了速度更快,另一方面是Facebook作为一个全球化的社区,DeepText能够审核超过20多种语言的文字。

DeepText甚至能实时通过用户发送的内容分析用户的想法,通过对意图、情绪和实体(人物/地点/事件)的提取,结合文本、图片,并自动移除垃圾信息的干扰,这一能力在Facebook Messenger上已经被测试验证。当然这个AI技术也并不只被用来审核一些可能发生的危险(针对青少年的犯罪),它还可以改进用户体验,帮助广告商进行有目标的宣传活动。

Facebook为这些实时而海量的信息编目录、并让其被搜索是件很困难的事情,所以他们才转向了人工智能。

同时,News Feed做为短小而高频的内容素材,恰好就是众多开展深度学习活动的有效场所之一,因为每个Feed的背后,包含了人们希望看到哪些与他们相关的内容。

而Facebook的图片和视频审核系统名为Rosetta,利用光学字符识别系统来处理图片和视频内容,每天可以实时地从超过10亿张图像和视频帧中提取信息并识别多种语言背后的含义。

另外,Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型:ResNext101。这是一个在Instagram的图片标签上预训练,并在ImageNet上微调的模型。

ImageNet是由知名人工智能专家李飞飞教授团队于2009年发布,包含了超过两万类物体共计一千四百多万张图片,后来的很多计算机视觉任务模型都以此为基础进行训练。

而ResNext101更上一层楼,利用了Instagram上的35亿张图片(比 ImageNet的1400万多了200多倍)进行了预训练,并以人们为图片添加的话题标签(#hashtag)为类别,研发出来的有着超强特征提取能力的图像识别模型。

在这两大系统的背后,其实是Facebook的人工智能研究院FAIR(Facebook Artificial Intelligence Research)在发挥功劳。比如其物体识别技术(Object recognition),以含有数十亿参数和数百万案例训练的神经网络为基础,给了挑战最大的图片和视频审核有力的支持。另外它们也使用自我监督学习(SSL)探索大量数据,让机器可以通过分析未标记的图像、视频或音频来学习世界的抽象表达,这也是 FAIR 将 AI 能力规模化的努力之一。

FAIR 还在研究用户头像的面部识别、上传照片的环境识别等,它承担 Facebook 所有 AI 相关的基础研究、应用研究和技术开发。 比如它推出的刚刚获得了国际视觉模型挑战赛冠军的Mask R-CNN ,这个系统可以将计算机视觉世界的物体检测与语义分割结合到了一起,不但可以检测劣质视频内容,甚至可以帮助视障人士自动替代文字。

不过,你可千万别以为世界上最大的社交网络和内容平台,光靠AI和审核系统就搞定了一切。截止目前,Facebook聘请了超过2万人(是的你没看错),来辅助内容筛查,并配合监测和删除争议内容。

但是,海外科技公司依然在技术层面领先中国非常多。

国内所谓的AI科技公司是通过资本注入后包装高大上的营销概念 、实则在河南等地(河南AI村)招募大量廉价劳动力进行人工数据标注。每人每天花8小时可对20-30套图的关键信息点进行标注,以供机器学习并调整模型的参数(强监督学习)。拉上村里十几个有基础电脑技能的人,你也可以为身处一线城市的公司提供这类外包服务。

而Facebook则是通过“半监督学习”(比如使用AI分析大量Facebook上已经存在的特定主题页的内容),对非标签数据进行学习和提取结构。这么做的好处是省去了大量人工的同时、对新任务响应速度很快,并且最重要的是,这给了AI模型数倍于人工强监督学习可以提供的数据量级,而数据量级和算力直接决定了人工智能的未来。

二、YouTube:版权审核系统的升级之路

YouTube的内容审核系统名为Content ID,会监测并直接删除涉及色情、低俗和暴力等违规内容。 不过,这个系统的诞生一开始仅仅是为了解决YouTube上内容的版权问题。

早年间YouTube以草根内容起家,后来出现了大量的搬运号,主要以盗版电视台的精品内容为主。虽然平台的数据因此飙涨,但也因此陷入了旷日持久的官司里。

2007 年至 2009 年,包括维亚康姆(美国第三大传媒公司),Mediaset (意大利的传媒集团)和英超联赛(英国最大足球联赛)等在内的组织对 YouTube 提起诉讼,声称它在用户上传侵权内容方面毫无作为。

维亚康姆要求其作出10 亿美元赔偿金,他们声称已经在 YouTube上 发现超过 15 万条版权内容片段,累计播放量超过 15 亿次。在耗时耗力的多年诉讼和公关战之后,直到2014 年,双方才最终协商解决了争议,但具体条件并未公开。

所以当年在被Google收购之后,YouTube从2007年开始就逐步投入巨资建立起Content ID版权系统,慢慢帮助版权所有者能够识别平台上的侵权行为,并让版权所有者在平台上能够获直接获得收入。截止 2018 年,谷歌为该技术研发共计投入超 1 亿美元。

后来,Content ID的内容监测能力在不断改进后,比如使用哈希算法标记有风险视频,阻⽌它们被⼆次上传,也获得了显著的成效。以2017年Q4为例,平台删除了800万条“令人反感”的视频,有670万条都由监测软件自动标记。大约75%被标记的视频,在被用户观看之前就被下架。

人性化的是,YouTube 于 2014 年 9 ⽉在前端增加了受限模式(Restricted Mode),用以过滤⾊情暴⼒内容,但是⽤户可以自己选择开启还是关闭。依据⽤户举报以及其它识别规则,受限模式可以直接为用户过滤⼤部分不当内容。

当然,YouTube的这些内容审核能力有赖于谷歌的深度学习技术Google Brain作为支持。Google Brian拥有一个收集用户信息(如观看历史和用户反馈)的神经网络, 以及一个用于对所显示部分视频进行排列的神经网络,通过引入机器学习工具,自动标记暴力、色情和低俗等极端视频,并将违规内容报告给人工审核员进行验证。

和Facebook类似的是,就算有了Google多方面的技术支持(包括资金、人才、算法、云和服务器等),YouTube的AI标记、内容审核与识别技术也并不完美。2018的时候YouTube CEO苏珊·沃西基承诺,未来会雇佣至少一万名人工审核员,以补足算法的局限。

因为更早之前英国政府和一些广告公司发现,自己的广告被推荐到了紧挨着极端主义分子上传的视频内容的旁边,造成了许多恶劣的影响,多方政府和广告主们联名宣布将因此撤下自己在YouTube账号上的内容。

不过,Google对 YouTube 的帮助也不会仅仅限于内容审核,Google Brain的技术已经被应用在安卓系统的语音识别、Google+ 的图片搜索、以及 YouTube 的智能推荐。所以,现在的YouTube早已从一个视频UGC社区,到慢慢成为拥有海量内容、搜索驱动的视频综合网站,到拥有了视频推送能力的应用。如今,占据用户在 YouTube 上观看视频总时长 70%的内容 ,是由推荐算法引擎驱动的。

三、头条:审核系统对外开放会带来哪些变化?

如今的今日头条已经拥有海量的用户和多种形式的UGC内容,尽管体量上还颇有不如,但在内容审核方面遭遇的挑战同脸书和Youtube已经十分类似。

头条在这方面的一个创举是,经过多年的技术储备和经验积累后,它开放了内部反低俗系统的一个简化版本“灵犬反低俗助手”,希望普通创作者、社会公众更了解和关注反低俗。截至2019年6月,灵犬反低俗助手的外部使用人次已经超过了300万。

用户只需要在灵犬的小程序内输入一段文字或文章链接,灵犬就可以帮助其检测内容健康指数,返回一个鉴定结果。对于用户输入的内容(文字或者图片),“灵犬”会先进行提取、分词和语义识别,然后根据相关规则,输出对应的分数、评级和结论。

在文本识别领域,头条同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。最近新版的灵犬3.0发布,重点拓展了反低俗识别类型和模型能力,现已覆盖图片识别和文本识别,后续,灵犬还将支持难度最大的语音识别和视频识别。

不过,国内的AI技术相对国外显然仍有不小的进步空间,所以今日头条现在配备了将近万余人的审核团队辅助AI的审核。

比如对于低俗内容,它的定义本来就相对笼统难以精确,这项工作即使对人来说也不容易,交给机器做更难实现。

比如世界名画中常常出现裸体女子,如果完全交由机器判断,机器通过识别画中人物的皮肤裸露面积,就会认为这幅画是色情低俗的;而某些拍摄芭蕾舞的图片,以机器的视角来看,其实类似于裙底偷拍。

Facebook 曾经因为“裸露”,误删了一张著名的越战新闻照片,内容是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑,事件发生后引起了美国新闻界的巨大争议。 很早的时候,头条也曾下架了一张关于吴哥窟塑像的图片,塑像虽然“露点”,但其实是名胜古迹,这其实是一个失误。

但是,在当前内容创作和消费规模海量增长的趋势下,如果依然纯靠人工去解决所有问题,那么必然效率低的同时还无法满足用户需求。

所以,AI+人工的内容审核方式在相当长的时间内都会是一种常规手段,这也是Facebook和YouTube等国际头部内容平台采用的处理方式。

四、结语

未来,随着用户和内容数量的继续增长,内容审核的挑战会越来越严峻,政策相关的监管也会越来越严格,图文的内容识别问题虽然逐步被克服,语音和视频的内容理解更加任重道远,人工和机器检测都更为不易,尤其是当需要联系具体的用户使用场景和政治社会语境时,难度会成倍提高。

比如邓丽君的歌曲,早年被认为是低俗情色歌曲,如今早已被普遍接受并传唱大街小巷;比如内衣和内衣模特出现在购物平台上,会被默认为正常,但如果频繁出现在新闻资讯平台上,就可能被认为有低俗嫌疑;而正常的热舞内容,提供给成年人看,符合常规标准,但如果开启了青少年模式,这些内容就不应该出现。这就是由于时代背景、使用场景、用户人群不同而导致审核标准可能大幅变动的案例。

海量数据的产生、不断变化的标准,这都要求大公司在这方面的投入必须越来越多,而这本质上就成了一场资本丰厚的对手之间的军备竞赛。

今年卡耐基梅隆大学(CMU)和 Google 合作研发的 XLNet 模型,在Bert模型的基础上更进一步,在足足 512 块 TPU 上训练了两天半时间。以 Google Cloud的计价标准,只是训练一次XLNet 模型就需要人民币160多万。若再考虑上整个模型研发过程中的不断试错和调参验证等过程,XLNet的开销简直天文数字。未来中小团队将难以竞争,这就是一个巨头独霸的竞技场。

不过好在,随着人类进入社会的数字化程度越来越高,新一代的移动互联网原住民们在享受技术带来的便利的同时,也对技术可能带来的负面在耐受度和适应性上不断提高。

毕竟自工业革命之后起,就有无数人曾对技术会带给社会的冲击抱有极端负面和悲观的预期,认为技术可能会加速崩坏我们数万年来自然形成的人类社会结构,但是哪一次,人类社会不又是顺利转型成功、发展出与技术相匹配的职业和生活模式、并且越走越好了呢?

来源:虎嗅

Facebook内容审核外包工获涨薪:至每年3500美元

全球最大社交网络Facebook在一些国家雇佣了大量外包工,作为内容审核员,但是过去传出了内容审核员工资低、待遇差的消息。据外媒最新消息,Facebook内容审核外包公司Genpact最近提高了Facebook印度内容审核团队的最低工资,这是Facebook改善员工状况的最新迹象。

据国外媒体报道,Facebook公司在过去六个月里推出了几项举措,以支持内容审核团队的健康发展。这些团队有时会从事繁重而重复的工作,费力阅读Facebook平台上数十亿条可能有害或暴力的用户帖子。

今年初,外媒报道了印度Genpact公司在南部城市海德拉巴(Hyderabad)办公室员工的处境。这些人从事Facebook内容审核员的工作,他们称自己的工作报酬过低,压力很大,有时工作还会带来心理创伤。

当时,Facebook否认了海德拉巴员工关于低工资的说法,称该公司为印度内容审核员支付了具有竞争力的工资。

两名知情人士最近对国外媒体表示,Genpact已将Facebook审核员团队新员工的最低年薪提高逾一倍,至每年25万印度卢比(合3503美元)。

根据招聘广告和员工工资单,外媒早些时候报道称,一些Facebook内容审核员的起薪仅为每年10万印度卢比(合1401美元)。

总部位于印度的科技外包公司Genpact在回应外媒提问时表示:“我们可以证实,Genpact最近确实提高了我们在印度团队的薪资,该团队参与Facebook服务,这是年度评估过程的一部分,我们要支付具有竞争力的市场工资水平。”

截至今年2月,这家外包商在其位于海德拉巴的Facebook团队中雇佣了1600多名员工。据Facebook称,该公司在全球雇佣了1.5万人从事用户帖子审核的工作,而在印度的外包工占到了全球的十分之一左右。

一名消息人士表示,最近的加薪仅适用于新员工,不适用于老员工。Facebook和Genpact均拒绝就加薪细节发表评论。但这家印度公司在声明中补充称,加薪“加强了我们对员工的承诺,帮助我们吸引和留住顶尖人才。”

 

Facebook 5月将美国地区内容审核员的最低工资从每小时15美元上调至18-22美元,该公司上周表示,仍在研究其他国家内容审核员工资的上调幅度。

在美国国内,Facebook在不同地区对内容审核员的工资上调并不一致。西雅图地区最低小时工资上调到18美元,加州湾区、纽约、华盛顿则上调到22美元。凤凰城等地区的审核员则上调到18美元。

据Facebook称,位于海德拉巴的Genpact审核员团队主要审查英语、多种印度语言、阿拉伯语以及一些阿富汗和亚洲部落语言的用户帖子。

需要指出的是,在过去几年中,Facebook、推特、YouTube等社交网络面临各国政府和舆论越来越大的批评和压力,被认为对社交平台上的用户言论缺乏足够的审核,导致网络暴力、极端主义、仇恨、种族歧视等内容肆意传播,加剧了社会分裂,甚至引发现实中的冲突。

面对外界的批评,Facebook开始招募大量的内容审核员,快速删除有害内容。

来源:腾讯科技

内容审核,靠人工还是靠机器?

2018年开始,快手、火山小视频等数十家短视频社交平台在数月内相继被网信办约谈,短视频社交平台从此迎来了一系列大刀阔斧的整改篇章。不久前,网信办会同有关部门对吱呀、语玩、一说FM等26款音频社交平台进行新一轮全面集中整治,新兴的音频社交平台因此迎来不少质疑。

在一年多的时间内,互联网的UGC内容审查方向均在走向人工强干预,业界甚至有人认为,真正靠AI审核内容可能还需要5-10年的窗口期。现实已经表明,只有督促互联网公司承担社会责任,强调算法的价值观,在产品设计上创新未成年人保护措施,加强内容安全监管,才能杜绝短视频社交平台中的种种乱象。

人工干预已成行业共识

得益于算法技术的发展,互联网公司通过用户画像实现了相对精准的信息推送。但如果不对信息的分发加以干预,诸如强烈性暗示、虚假信息、软色情等内容就会在推荐网络中蔓延,科技界、媒体界由此展开了关于“算法有没有价值观”的讨论。

字节跳动创始人张一鸣曾发表公开信,表明为纠正机器与算法的缺陷,将原有6000人的运营审核队伍,扩大到10000人。2018年4月被网信办约谈后,快手官方表示,将原有2000人的审核团队扩充至5000人。在“算法有没有价值观”这一命题上,快手和字节跳动最终作出了少有的共同选择。

今年4月,探探因整改下架,在其后陌陌第1季度财报会议中,唐岩表示将加大内容审核业务上的资源投入。最新一轮开展集中整治的26款音频社交平台中,社交应用Soul也公开回应称将严格审核相关功能和内容,其整改措施中同样包括加强审核团队建设,将会增招大量内容审核及主管级人员。

如今的探探,在其朋友圈发表动态会进入长时间的审核状态。而在Soul,其动态内容审核据称已全面覆盖除机器判定外的两道人工审核流程,在未来新版本中当动态内容判断为涉嫌违规时也会直接给予用户提醒。

上述四款应用的整改措施都在强化人工审核在内容审查机制中的主导作用,从一个侧面印证了机器分发的局限性。

机器审核只能辅助识别

得益于音视频技术的发展,音视频匹配通话、音视频直播、音视频信息流等新型媒介走进人们的数字屏幕,给人们带来崭新的通讯体验和娱乐视听上的享受。音视频内容技术审核要求高,完善审查机制耗费较大人力财力,但这并不代表一筹莫展。

音频内容的机器审核方案中,音频识别转文本匹配关键词是目前通用的基础方案。先识别音频中的语言语种,语音识别转化为文本信息后索引出关键词,在这一过程就可以植入现有文本识别中的上下语义分析,机器识别出与模型相似度最高的垃圾内容进行剔除。但正如机器与算法的缺陷,目前业界的音频识别技术能力尚未到达可以完全代替人工审核的阶段,特别是在处理方言、有不同音轨的杂音等场景时。

视频内容实则由音频内容、视频画面内容两个对象组成,视频画面内容的机器审核,业界目前常采用截取画面帧上传识别,最终复用的是图片识别通道对场景、人物、物品进行判断是否违规。但以常用的24帧标准为例,一个60秒的视频就多达1440个画面帧,要实现覆盖全画面帧的机器审核则会耗费极大的资源,故此常见的审核设计是设定视频的截取时段选取部分画面帧进行机器审核。在无法覆盖全画面帧的审核的条件下,自然就出现了视频内容“闪现”色情违禁内容的风险,更有甚者,一些人通过画面内容隐晦表达,图片的机器审核难以理解表义。

其实无论什么载体的媒介,在真正的AI时代来临之前,所有的机器审核都只会是人工的辅助。在流程设计上,机器审核可以做到的就是帮助运维者先行剔除大量确切违规的内容,剩下的人工审核流程可不能说省就省。举个例子,一张人像图片,可以划分为“色情”、“性感”、“正常”三个维度,机器审核可以根据肉体裸露的程度进行判断,实际上信息的表义可没那么简单,究竟该怎么定义“性感”?全无裸露的人体通过场景与动作的表达能不能达到人们对“色情”的认知?

人生而爱美,如果说“性感”可以从性暗示程度、信息接收者的舒适度作为标杆,那么定性标尺就掌握在网站运维者手上,各社交平台的编辑责任制也因此诞生。

国家网信办:论内容审核,还得向脸书、推特取经

据央视网报道,国新办于2019年9月举行第六届世界互联网大会新闻发布会。国家互联网信息办公室副主任刘烈宏在回答记者提问时介绍,在内容审核上,脸书、推特等公司其实更有招数。以下为文字实录。

记者:近年来,中国的政府部门包括网信办都在推出一系列有关网络内容的规章性文件,特别是在监控网络信息方面,这就导致了很多中国企业开始开发新的,比如人工智能的软件去进行分析,来控制这些网络内容。是否这些领域的内容将会是中国企业未来能够胜过美国企业的一个优势点?因为现在我们看到很多美国企业,包括美国的Facebook都不能成功阻拦那些含有暴力内容的视频信息,是否这些美国企业能够从中国企业身上学到这些呢?

刘烈宏:在内容审核上,脸书、推特等公司其实更有招数。前段时间,脸书、推特以散布“假新闻”为借口,封禁了一批发布客观理性声音的中国账户。但与此同时,大量歪曲事实、攻击抹黑中国的谣言信息却大行其道。这充分表明,脸书、推特等公司的内容审核其实非常精准,如果说要“取经”的话,可能找他们更合适。

延伸阅读:

推特停用936个账号

推特给出的理由却非常荒唐——这些账号有“政府背景”,通过协调一致的统一行动在传播各种涉港“假新闻”,而这些所谓的“假新闻”在破坏香港示威的“合理性”,还“企图在香港播下政治不和的种子”。

但是,查看了推特声明中给出的示例后可发现,这些破坏香港暴乱“合理性”的“假新闻”,全都是痛斥暴徒暴力行为,力挺香港警察的“真新闻”。

接着,推特又发布了一篇声明,称为了保护“合理的探讨及开放的对话”,该公司从即日起不再接受由政府控制的媒体提出的广告业务。

但据BBC报道,因为政策不会用在那些所谓“采编独立的公营媒体”,因此像英国广播公司(BBC)、美国公共广播电视公司(PBS)、美国国家公共广播电台(NPR)等应不在受限制之列。

脸书:从推特得到消息,删除一批账号

同一天,脸书也发布声明,称他们通过从推特得到的信息,删除了7个粉丝专页、3个社团和5个个人帐号。

理由也是一样的,这些虚假账号“涉嫌”用欺骗性策略传播关于香港暴乱的新闻,而这被脸书当作是由中国政府发起的针对香港暴乱的“舆论操控行动”,这些账号也被当作“与中国政府有关的个人有联系”。

脸书还在声明里加了一份“非常客观中立”的句子,称“我们删除群组和账户是基于他们的行为,而不是他们发布的内容”。

但查询这些账号发布的信息,全都是痛斥香港暴徒暴行,力挺港警的内容。

骂暴徒、撑港警是“舆论操纵”,而暴徒打、砸、烧就是“正当、合理的”,要通过删除“假新闻”来保护。网友感叹,外国互联网巨头用实际行动,向我们阐释了什么是真正的“言论自由”。

外交部回应“推特脸书删内地账号”:是不是戳中了他们的短处?

推特公司官方账号“推特安全”在8月19日发布了一份声明,称他们已经暂停了936个在内地建立的推特账号。

“针对推特脸书关闭内地账号”事件,中国外交部发言人耿爽20日表示,不了解具体情况。但我想,对于当前香港的局势,14亿中国人是什么态度,大家应该很清楚,海外华人华侨、广大留学生是什么态度,大家也应该很清楚,他们当然有权利表达自己的观点和看法。

有记者在提问中称,在此之前,中国官方媒体在推特脸书等社交媒体上投放了很多广告“负面描述香港的局势”。

耿爽对这一说法进行了批驳:“我不知道你所谓的中国官方媒体对香港局势的负面描述是指什么?我想香港发生了什么,真相是什么,世人自然有自己的判断,为什么中国官方媒体介绍的就一定是负面的或者是错误的呢?”

耿爽说,至于推特公司新出台的政策,你可以去问推特公司。中国媒体利用海外社交媒体与当地民众进行沟通,对外介绍中国的政策,讲述中国故事,这是情理当中的事,不知道为什么某些公司或者某些人对此反应如此强烈,“我不知道是不是戳中了他们的某些短处?”

文旅部:网络直播应至少延播3分钟,加强脱口秀、相声内容审核和现场监管

12月5日,文化和旅游部发布了就《文化和旅游部关于进一步加强演出市场管理的通知(征求意见稿)》公开征求意见的公告。

《通知》提出,要重点对电音类、说唱类节目审核把关,着重加强脱口秀、相声以及先锋话剧、实验话剧等语言类节目内容审核和现场监管。

此外,允许在全国范围设立外商独资的演出经纪机构和演出场所。

重点对说唱类、脱口秀、相声进行内容审核和现场监管

《意见》提出,在音乐节庆类演出活动方面,要重点对电音类、说唱类节目进行审核把关,配合公安等部门加强对演出现场、电子显示屏内容以及互动环节的监督检查,督促演出举办单位防范人群踩踏等安全事故。

在小剧场演出活动方面,要重点加强脱口秀、相声以及先锋话剧、实验话剧等语言类节目的内容审核和现场监管。

对沉浸式演出活动,要加强演出全流程审核,防止出现封建迷信、血腥恐怖等内容。

网络直播应至少延播3分钟

在演出新业态管理方面,《意见》提出,加强演出网络直播管理,营业性演出活动需要进行网络直播的,应当在报批时一并提出申请。

组织演艺人员从事线下现场演出的网络直播(表演)公会组织,应当取得《营业性演出经营许可证》,并依法办理相关手续。

网络直播应采取延迟播出的形式,至少延播3分钟。演出举办单位和网络直播企业应当制定直播管理流程和突发事件应急预案,安排专人对演出直播内容和网民留言等互动内容进行实时审看。

允许设立外商独资的演出经纪机构、演出场所

《意见》还提出了激发演出市场活力的有关举措,降低外资准入门槛,允许在自贸试验区设立中方控股的合资文艺表演团体,允许在全国范围设立外商独资的演出经纪机构、演出场所经营单位。

针对票务市场,《意见》提出,各级文化和旅游行政部门要加强对涉外营业性演出、大型演唱会,以及有较高知名度演员参演的演出活动等票务销售情况的预研预判,及时将可能引发票务紧张或炒作的演出活动列入重点监管对象。

需要说明的是,目前该《通知》正在向公众征集意见,意见反馈截止到2019年12月22日。

微信突然宣布:将启动最严内容“审核”,群主也可能受到影响

根据微信发布的《微信2019年大数据》报告中显示,微信月活跃用户数量达到11亿,要知道同期微博的月活用户量为5亿,可以说社交内容和信息产出,主要还是来自微信。所以说对于内容的审核来说,是至关重要的,微信也有大量的审核团队对微信公众平台、微信朋友圈、甚至微信群转发消息都有严格的审查机制。

最初微信只是对公众平台资讯的审核

前些年,公众平台刚刚开始成立的时候,有大量的文章产出,特别是各种“标题党”、“谣言”横行,记得几年前总是被父母或者老一辈的长辈,转发一些“伪科学”、“伪养生”的知识,还有很多的无光痛痒的内容却挂着重要事件的标题。但是因为父母辈的人对信息的辨识度比较低,对网上的内容信服度也比较高,使得很多人被骗,最后腾讯加大了内容审核力度,专门成立了微信内容审查部门,对所有的微信产出内容进行审查。最近两年,确实已经很少有这种信息产出了,不得不说腾讯在这方面确实加大了力度。

随着对信息的透明和信息安全重视,朋友圈也被强烈约束

在2019年,腾讯发布了一项朋友圈决议:对于中小学打卡类朋友圈,坚持每天打卡能够获得物品的“软污染”朋友圈内容,进行清理、特别是某些健身公众平台,借着健身的名义,以每天打卡,坚持多少天可以得到多少的积分等带有诱导倾向的内容,进行了打击清理。严重的直接进行封号处理。截止2019年12月份数据显示,微信朋友圈已经存在极少数的“打卡行为”,而这些打卡行为往往是真实的对学习或者健身有真正意义的“打卡”。

2020年,微信审核力度再度加强

随着网信部对于谣言的管控力度增大,以往是对于传播500人以上的谣言进行训诫和拘留。而现在对于传播危害程度较深、影响较大的,甚至不再考虑传播人数。就连在微信群里面发布“谣言”,特别是对公众有误导和制造恐慌情绪的,微信群主也没有进行制止,结果从任由其微信群里面开始向外扩散,被朋友圈等其他位置进行转发,这种行为可能会被封号处理,就连群主也会受到影响。

2020年了,朋友圈还是那个我们曾经发表自己生活感悟的地方吗?很多人的朋友圈被所谓的“微商”所占据,被所谓的“美拍”所占据。根据调查现在90后,已经越来越少发朋友圈了,特别是90后的男生,有近40%的90后男生,平均每个月才发布一次朋友圈,更有一部分一年才发几个朋友圈,还有一半以上是因为帮朋友转发。让微信回归到通讯本质,让朋友圈恢复到我们熟人之间了解彼此的广场,让更多有价值的内容被微信公众平台所展示,这才是我们期望的微信的样子。