当前位置: 首页> 苹果资讯

Tumblr扫黄今日打响!AI鉴黄尚不成熟影响使用

发布时间:2020-05-24

12 月初,美国著名图片博客网站 Tumblr 宣布将全面禁止任Щ何成人内容。新规定于 12 月 17 日正式施行。这一行为看来是主动在和“互联网的30% 流量”说再见,长久混迹Tumblr 的老司机们送了℡一首“凉凉”予它。

自2007 年上线以来,Tumblr 一直以允许 NSφЧFW 内容而闻名(也可能是臭名昭著),这是公司管理层一时的头脑发热还是想要“改过自新”了?不论Tumblr 的意图如何,想要为社交网络加入审核机制,过滤色情图片/视频是需要投入技术和人力的。

在Tumblr г的官方通告中,公司 CEO Jeff÷ D’Onofrio 表示,“……(Tumblr) 将采用产业标々准的机器监控、不断加大的人类监控等方式禁止成人内容。”

但是,才“睁开眼睛”的计算机并不那么完美。”Wired 在近日的一篇文章中称。许多 Tumbl┙r ·用户在 Twitter 上抱怨其鉴别系统存在许多误判行为。如奥克拉荷马大学法学院Ё教授 Sarah Burstein 只是发布了几张设计专利图,就被标记了。文章表示这不仅效率低下,而且μ伤害了用户的感情。不少 Tumblr 的用户失望地涌向推特,《纽约时报》称这些■用户是“弃灬船而逃”。

其实在多年前,Tumblr 就面临着准确识别 NSFW 内容的问题。2в013 年,Yahoo 11 ┖亿美元收购 Tumblr,4 年后 Verizon 收购雅虎,√Tumblr 归于 Verizon 子公司 Oath,并在不久之后推出了“安全模式”,能在搜索结果中自动过滤成人内容。

⿴ 人工智能虽然可以同时处理大量图片,但毕竟不是人类,难免会出现一些令人哭笑不得的差错。特别像Tumblr 这样的微博客平台,用户群体复杂,色情与非色情的界限非常难以把握。

图像鉴黄系统流程是什么?

鉴黄系统的工作流程是这样的:首先是要建模,其次是制定色情图片的分类标准,然后收集大量素材,进行分类标注,最后用这些标注好的素材进行∕训练,让机器¤去学习各个分类里面的特征,不断调整自己模型的参数并最终得到最佳的识别模型。

而当机器对图像进行识别以后△,Г这些图像数据会转化为数字化的信息,带入到模型里面进行计算, 根据计算值将图片标注为“正常、性感、色情”三个类别√。

❤☜

― 因为“识别”的不完美性,这样的系统也会有人类的参与。在经过识别之后,系统把判断结果和概率告诉使用方,使用方会再根据结果做对应处理,比如自动删除、或者人工接入复审。如果在人工复核环节发现机器识别有误,则会有针对性地对相同场景的图片进行数据▁▂▃▄学习, 并调整参数, 直到错误率达到最低值。

对于开发团队来说,做该领域的产品困难在于如何获取大规模★已标注数据、集成有GPU ◎的计算集群以及针对自己的项目调参数,团队需要不断地输入新数据,持续迭代以提高机器识别准确率。

既有图片又有视频怎么办?

在短视频流行的今天,各家科技公司还要面对海量卌的视频内容。图片是静态的∈,视频ぁ/直播是动态的,而视频内容的完整审核≧包括对图片、文字、语音的审核,所以会更加复杂。以对视频图片审核为例,在鉴别视频和直播时,可以先把动态的内容解码成图片帧,这就与静态图片鉴别方法相似了。

直播实时性强,对响应→时间要求高,并且里面的场景和人物变化比较大,审核要求比较严格,所以识别难度会相对比较大◐,需要实时不断对房间进行截帧传输识别,并且结合人工来实现预警处理;视频在画质整体上۩比图片和直播差,一定程度会影响识别效果,通常是以视频为单位ы进行等时间间隔截图,の以一个视频多张截图的结果来综合判断视频是否色情违规。

如果企业对视频或直播的每一帧图片都进行识别,数据量将变得非常巨大,运营成本会很高。面对这类情况,一般会采用对视频抽帧的方式进行处理。例如,一分钟视频,可以按照时间段来抽取6-15 帧左右的图片进行识别处理,以此减少计算成☆本。

审核能否完全依赖机器?

针对人们屡屡吐槽的“误杀”问题,在提高AI 算法准确度的同时目前还需依靠人类做最后的判断¤。误判分为两大类型:把色情内容误判为正常内容,以及把正常内容误判为色情内容。

1)色情判正常:在光线昏暗场〖景,或者距离很远时背景干扰比较大的场ⓥ景下,以及有特效干扰的情况都有可能造成误判;衣着正常但к实际上露点、隐晦的动作和姿势等。

л 2)正常判色情:穿着暴露但实际没露点,物体形似性器官,接近于色ι情动作但实际不是(譬如手抓棍状物体、手正常放在敏感部位)等。

单纯的算法和模型是℡可以把机器训练到完全正确地判断情况的,但是在实际应用中,机器没有自主思考和自己的主观意识,仍然需要人工辅助∏进行确认。例如客户提供的画面í过于模糊或者说光线过暗,以及训练数据的不能完全覆盖性等种种客观原因影响下,机器打不出很高的分确认图片,这都需要人工来辅助。

“Tumblr 网友:即使这样我也不愿离去。”

看来,AI 图像识别系统可以用现有的,“鉴黄师”则非请不可。在宣∴布禁止成人内容之后,Tumblr 的 a∵pp 终于再次出现在苹果应用商店里。这辆车最终会开向何处?让我们拭目以待。