第9章 训练
底色 字色 字号

第9章 训练

    冬雪消融,柳枝吐新。但深视科技的研发中心內,气氛却比寒冬还要凝重。
    过去的一段时间,公司进入了战时状態。
    京城总部的灯光经常彻夜不熄,而在遥远的星城,一场规模浩大的人肉数据採集战役也正在进行。
    为了採集足够多的真实人脸样本,星城分部的招了几个地推团队几乎跑遍了当地的大学、社区和商场。
    他们拿著小礼品,请求路人录入人脸信息。
    “麻烦眨眨眼”
    “请向左转头”
    “光线稍微亮一点”
    人脸图片也是快速增长:几百张,几千张,几万张。
    这是一场用人力堆出来的结果。
    “只有90.2%。”
    会议室里,顾书瑶看著大屏幕上的测试结果,声音里透著难以掩饰的疲惫和沮丧。
    这是他们训练出的第一版深度学习模型(demo)。
    虽然相比传统算法85%左右的识別率,这已经是巨大的飞跃,但在人眼识別率:97.53%面前,它依然是个脸盲。
    “我们离人眼標准还差得远。”顾书瑶摘下眼镜,揉了揉满是红血丝的眼睛。
    会议桌旁,汤小鸥教授、徐力、杨樊等人都在,连在微软研究院的何鎧明时不时的过来凑热闹也不说话了。
    大家面前都摆著厚厚的测试报告,空气压抑得让人透不过气。
    陈阳坐在主位,手里转著一支笔,神色平静。
    其实他心里很清楚问题出在哪里。
    前世deepid算法之所以能屠榜,靠的不是单一模型,而是模型融合(和多尺度特徵提取。
    但他没有立刻说。
    一个团队的战斗力,是在一次次撞墙和突围中磨练出来的。
    如果每次遇到问题他都直接给答案,那这群天才终將变成只会执行命令的庸才。
    他需要给他们一点时间,去试错,去思考。
    “大家怎么看?”陈阳打破了沉默。
    “目前我们的方案是標准的cnn(卷积神经网络)思路。”徐力指著架构图分析道,
    “將整张人脸丟进模型,经过卷积层提取特徵,最后生成一个特徵向量进行对比。”
    “但这有个问题,模型似乎抓不住细节。比如双胞胎,或者长得像的人,它很容易搞混。”
    “我觉得还是数据量的问题。”汤小鸥教授沉吟片刻,给出了学术界的经典判断,
    “深度学习是吃数据的。相较於imagenet动輒上千万张图,我们才几万张,模型根本吃不饱,泛化能力自然上不去。”
    “我建议,扩大数据集。”
    汤小鸥看向陈阳:“把数据量翻倍,甚至翻四倍。只有见过足够多的人,模型才能学会什么是不同。”
    “同意。”
    “附议。”
    大家都觉得这是目前最靠谱的路径。
    “好。”
    陈阳点了点头,虽然他知道这会有提升,但不会有质变,但他还是支持团队的决定,
    陈阳找来林小月叮嘱道:“通知星城那边,加大投入。我要5000个人的样本,至少20万张照片。”
    “好的。”
    又是半个月的煎熬。
    星城团队像是上了发条一样,终於凑齐了这20万张高质量的人脸数据。
    数据传回京城,新一轮的训练开始了。
    这时候,算力的瓶颈赤裸裸地暴露了出来。
    由於超算中心还在建设中,他们只能用现有的十几台伺服器跑任务。
    进度条走得慢如蜗牛。
    一天,两天直到第十二天,模型才终於收敛(训练完成)。
    “这太慢了。”
    顾书瑶看著伺服器风扇轰鸣,却依然缓慢的进度条,急得嘴角冒泡,
    “一次叠代要十几天,如果有bug重跑又要十几天。这简直是在浪费生命。”
    陈阳站在机房外,看著这一幕,建立超算中心的想法从未如此迫切。
    在ai时代,时间就是金钱,算力就是生命。
    等到算力中心建设完成,这个时间將被压缩到几个小时。
    但现在,他们只能等。
    第十三天,结果出来了。
    91.3%。
    仅仅提升了1.1%。
    看著这个数字,顾书瑶差点把键盘砸了。
    付出了两倍的人力,十几天的时间,就换来这一丁点的提升?
    按照这个速度,想超过人眼识別率,得等到猴年马月?
    “单纯堆数据,边际效应递减了,看来方向不对。”汤小鸥看著数据,眉头紧锁。
    “要不试试传统算法和深度学习结合?”汤小鸥提议,
    “用传统算法做对齐,用深度学习提特徵?”
    “试!”顾书瑶觉得这也是一个办法。
    又是几天的折腾,失败。
    效果甚至还不如纯深度学习。
    “再加数据?”徐力咬著牙提议,“加到100万张!我就不信餵不饱它!”
    “来不及了。”顾书瑶摇摇头,看了一眼日历,
    “投资人希望三个月看到阶段性成果。收集100万张照片至少要半年,我们等不起。”
    会议室里再次陷入了死寂。
    这一次,连汤小鸥也没辙了。
    学术界目前最先进的方法都在这儿了,还能怎么办?
    陈阳看著大家垂头丧气的样子,知道火候到了。
    挫折教育已经足够,现在是时候注入信心了。
    “大家是不是走进了一个误区?”
    陈阳的声音突然响起,清朗有力,瞬间吸引了所有人的目光。
    他站起身,走到白板前,画了一张人脸的简笔画。
    “我们现在是把整张脸丟进去,让模型自己去学。但是,人脸是复杂的。”
    陈阳用笔在人脸的眼睛、鼻子、嘴巴上分別画了圈。
    “如果我是警察抓小偷,我不仅会看他的脸型,还会特意看他的眼睛大不大,鼻子挺不挺,嘴唇厚不厚。”
    陈阳转过身,看著汤小鸥和徐力,拋出了那个关键的提示:
    “我们为什么不把人脸切开呢?”
    “切开?”徐力一愣。
    “对。”陈阳在白板上画了几个方框,
    “全脸是一个输入。眼睛区域是一个输入,鼻子是一个,嘴巴是一个。甚至,我们可以在不同的尺度上切,有的切大点,有的切小点。”
    “每一个区域,我们都训练一个独立的模型去识別特徵。”
    陈阳在画板上重重一笔,將所有方框连向一个终点,
    “最后,我们將这些所有模型提取出来的特徵,拼接在一起。”
    “这就是:联合决策。”
    轰!就像是一道闪电划过夜空。
    汤小鸥猛地站了起来,眼睛死死盯著白板上的图,嘴里喃喃自语:
    “局部特徵、多尺度、模型融合。对啊!我怎么没想到!这样能强迫模型关注细节,让同一个人的向量更聚合,不同人的向量拉得更开!”
    “这能极大提升泛化能力!”徐力也激动得跳了起来:“陈总,这招太绝了!”
    “可是。”
    顾书瑶作为工程负责人,第一时间想到了代价,“如果把人脸切成几十块,每一块都用一个网络,那计算量。”
    “这就是暴力美学。”
    汤小欧教授笑了:“我们现在缺算法,缺数据,但就是不缺暴力的决心。一个模型不行,我们就上十个;十个不行,就上六十个!”
    “把人脸切成10个区域,每个区域在rgb和灰度图上各训练3个网络。一共60个卷积神经网络!”
    “我要用这60个模型,像60个拿著放大镜的侦探一样,把人脸的每一个毛孔都看清楚!”
    “60个模型。”大家被这个疯狂的数字震住了。
    在2013年,训练一个深层网络已经是大工程,同时跑60个?这简直是疯子的想法。
    但正是这种疯狂,让在场的每一个人都热血沸腾起来。
    “就这么干!这才是ai该有的样子!大力出奇蹟!”
    汤小鸥一拍桌子,眼中闪烁著赌徒般的狂热。
    “书瑶,调动所有伺服器资源!不够在继续买。”
    “徐力,杨樊,你们负责切图和网络结构设计!”
    “今晚不睡了,我们要搞个大新闻!”
    整个研发中心瞬间沸腾了。
    原本沉闷的气氛一扫而空,取而代之的是一种决战前的亢奋。
    代码飞快地在屏幕上滚动。
    人脸图片被切割成眼睛、鼻子、嘴巴等各种碎片。
    60个独立的神经网络像60头飢饿的野兽,被塞进了有限的显存里。
    陈阳站在后方,看著这一幕。
    他知道,这就是著名的deepid算法的核心思想。
    虽然现在超算中心还没建好,训练这60个模型会非常痛苦,可能需要轮流跑。
    但只要这条路是对的,胜利只是时间问题。
    屏幕上,新的训练任务已经启动。
    进度条再次开始缓慢爬升。
    这一次,所有人的心里充满了期待。
上一章 回书页 下一章 加入书签

设置

字体大小