点击上方关注,All in AI 中国
7月30日,今日头条宣布正式推出新版灵犬反低俗助手(以下简称“灵犬”),同时支持图片和文本识别。这是时隔半年后,“灵犬”的又一次重要升级。
[图0.jpg|]
“灵犬”脱胎于今日头条反低俗模型,是一款检测内容健康度的辅助小工具,致力于打击低俗低质内容,净化网络空间。用户目前可以在今日头条内,搜索“灵犬”进行试用。
灵犬升级,新增图片识别
据了解,在文本识别领域,新版“灵犬”同时应用了“Bert”和半监督技术,训练数据集包含920万个样本,准确率提升至91%。在图片识别领域,“灵犬”采用深度学习作为解决方案,在数据、模型、计算力等方面均做了针对性优化。
我们先说文本识别:
“Bert”提出了一种大的模型结构(参数量是之前模型的10倍多,计算量也提高了10倍多),以及通过监督学习对天然超大规模语料建模,使得对语义的刻画更为准确。半监督技术,能引入更多非标注语料,使得模型的鲁棒性(即稳健性)更好。
尽管公司内部有很多专业内容审核编辑从事标注数据,监督语料的增加对效果的提高仍然没达到极限,但再持续大规模增加标注语料很困难,所以转向了使用半监督技术。半监督技术可以使得对语料的使用量达到了之前的五到十倍。
新版灵犬同时应用了“Bert”和半监督技术,并且在此基础上使用了专门的中文语料,不牺牲效果的情况调整了模型结构,使得计算效率能达到实用水平。这一代训练数据集总量是1.2个T,相当于20倍百度百科或者100倍维基百科的数据总量,包含920万个样本,文本识别准确率提升至91%。
[图1.jpg|]
那么,一般情况下,机器如何判断文本低俗呢?
一个简易的方案是分词,做词表。具体包括几个步骤:
对文本进行分词,把词变成最小颗粒度的序列;
由专业人员准备一个低俗词表;
去看给定文本分词的结果,是否包含在低俗词表中;
若是包含在低俗词表中,则机器判断为低俗。
显而易见的是,这个方案会带来一些问题:
机器在这里只看表象,不作理解;
词表的容量终究是有限的,容易被绕过,准确率低;
词表的更新频率必须很高,每隔一段时间就要更新一次。
为此,灵犬采取的解决方案是自然语言处理(NLP)技术。人类使用的语言,如汉语、英语,都被视为自然语言。这是为了区别于编程语言等“人造语言”。
我们再来看图片识别:
我们提过,对于文本识别,最简单的方案是分词,做词表。如果词语命中了低俗词表,机器就判定为低俗。对于图片,当然也可以这么做,做一个巨大的图片库,如果命中了图库,就判定为低俗。
[图2.jpg|]
但请注意,图片跟文本不太一样的是:文章由段落构成,段落由句子构成,句子由字词构成;两段低俗的话,很可能在某些字词的运用上有重合,而字、词作为段落的最小单位,是可以被分割出来,并一一加以识别的。但两张低俗的图片,构成的特征千差万别,与文本不一样的是,图像识别的特征提取,无论是初级特征的形状、颜色、纹理,还是高级特征里的语义,其数量是无限的,不可穷举。
随着智能移动设备的普及,图片分享的总量越来越多。这些照片上传后,分析和管理的需求随之而来。
面对如此庞大的数据,穷举法,对于图片反低俗来说,是不太可行的。那怎么办呢?
灵犬运用的解决方案,是深度学习。深度学习主要依赖三要素:一是数据量,二是算力,三是模型。
[图3.jpg|]
数据是深度学习最核心的要素。深度学习对于数据的拟合能力非常强,数据量越多,往往效果会越好。此外,灵犬还针对许多困难样本做了模型结构调优。
为应对用户上传的不同的比例的图片,专门设计了多桶模型,使得各种比例的图片都能有很好的识别效果。
在以人为主的场景中,为应对人在图片中的面积占比变化较大的问题,引入了特征金字塔结构,对不同尺度的物体,它能提高模型提取一致性特征的能力。
为应对在图片背景中出现小范围的问题区域的问题,计了分割辅助分类网络,使得模型能更专注于问题区域。
其次是GPU算力。GPU是专门用来跑深度学习模型的高密度设备,算力越强,效率越高。利用分布式训练算法以及强大的GPU训练集群,加速模型的训练和调试。利用模型压缩技术,提升模型的预测速度。
最后是模型。灵犬还建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程,“灵犬”持续在优化。
机器+人工,效果显著
如果已经有人体验过灵犬,那么就会发现灵犬有时候也会拿不准,低俗相对于色情来说没有一个相对比较标准的区分准则,低俗也很难一刀切,那么这时候就需要人工去辅助了。
字节跳动人工智能实验室总监王长虎为我们举了一个例子,在淘宝店里看到内衣样式和相关的卖家秀,买家并不会觉得被冒犯,而是约定俗成地把这个当成是消费服务的一部分。但如果是在新闻资讯平台上,频繁出现内衣和内衣模特相关的内容,大家可能就会认为这个平台有低俗问题。
正常的热舞内容,提供给成年人看,相信大家不会觉得有问题;但如果开启了青少年模式,这些内容就不应该出现。
针对低俗判断问题的复杂性和不同判断方式的局限性,最终给出的一个结论是:
不断进化技术模型;
结合技术和人工判断两种方式。
然而灵犬只是今日头条反低俗系统的一个简化版本,受限于小程序体裁和模型应用条件,它还不够完美,也不能完全反映出今日头条反低俗系统的真实情况和全部面貌。
[图4.jpg|]
在内容审核方面,2012年以来,今日头条目前投入了近万人的专业审核团队,并搭建色情、低俗、标题党、虚假信息、低质模型数百个,结合人工、技术手段,有效提升了内容审核的效率和准确度。
放眼全球,打击低俗低质内容,是所有信息平台都在面临的难题,不管是国外的Facebook、Google,还是国内的微信、头条,都在想办法更好地解决。
在活动的最后,有记者提到了一个问题,是关于灵犬给用户带来的价值问题。对此,王长虎表示,“灵犬对用户至少有两方面的价值,一方面我们希望帮助创作者从源头避免或者减少低俗低质内容的发布。因为有些低质低俗内容的发布,很多时候并不是故意散布,有时候是疏漏;
另一方面,希望普通用户通过灵犬参与进来,帮助我们一起做低质低俗内容的打压,因为我们的模型还在不断的完善进化过程当中,他们每一次反馈,都是帮助灵犬可以提升它的能力。”

图122663-1:
“今日头条的理念是‘信息创造价值’,我们也相信,要用技术来做有价值的事情,技术和人一起,让信息创造出更大、更丰富的价值。”
来源:今日头条
作者:AI中国
点赞:4
评论:0
标题:今日头条灵犬再升级,先试试新增的图片识别功能
原文:https://www.toutiao.com/article/6719639012803363332
侵权告知删除:yangzy187@126.com
转载请注明:网创网 www.netcyw.cn/b122663.html



