默认冷灰
24号文字
方正启体

第396章 我这有几千张GPU,你要吗?

    八月的西安,是能把人烤出油来的那种热。</br>不像锦城那种阴湿的蒸笼感,西安的毒日头是直接劈下来的,混着秦川平原上吹来的干热风,把整座城市炙烤得像一块巨大的砖窑。</br>任少卿拎着一个鼓囊囊的黑色双肩包,从西安交大东门的公交站一路走进校园,衬衫后背湿透了大半,贴在脊梁骨上,黏糊糊的,难受得很。</br>他低着头,盯着脚下的花岗岩路面,脑子里反复过今天宣讲的那三十二页PPT。</br>第七页的实验数据。</br>第七页,是整个报告的命门。</br>任少卿闭上眼睛,那张对比折线图像刻进脑子里一样挥不去。</br>他基于AleX架构改进的卷积神经网络模型,用东拼西凑的四卡GPU服务器跑出来的结果,在PASCALVoC2012数据集上,目标检测精度比学界主流的dPm模型高出了将近十一个百分点。</br>十一个百分点。</br>在他看来,这不是一个数字。</br>这是一次典范转移。</br>他二十七岁,中科大和微软亚洲研究院联合培养的博士生。</br>去年从合肥到了一趟北京,跟着导师的组看完了Hinton组在ILSVRC比赛上用AleX把传统方法打得落花流水的完整论文。</br>他当时就坐在微软大厦十二层的组会室里,咖啡都顾不上喝,盯着屏幕上那个把所有传统方法甩开将近十个百分点的成绩,心里某个地方“咔哒”一声,被什么彻底撬开了。</br>那种感觉,他后来想了很久——大概类似于在一片乌压压的普通人里,突然认出了另一个同类。</br>然后他就扎进去了。</br>整整八个月,几乎把所有能腾出来的时间全部押进去。</br>他在自己的研究方向里开了条岔路,拐进了当时连导师都半信半疑的深度学习丛林,靠着微软亚研院借给他的一小块GPU算力,把那套模型一点一点搭起来,调参,再调参,处理过拟合,再处理,换框架,换数据增强方式……</br>然后跑出了那个让他失眠了整整一夜的数字。</br>但他没法训练更大的模型。</br>算力不够。</br>微软亚研院给他划的那块算力有上限,还要跟组里其他项目排队。</br>他算过了,如果要把网络规模再扩大一倍、数据集再丰富三倍,按现在能用的算力,连续不间断地跑,需要将近四十七天。</br>他等不起。</br>不是技术上等不起,是赛道上等不起。</br>他清楚地感觉到,全球跑在这个方向上的人越来越多。</br>去年AleX一出,全世界顶级实验室就像被点着了一样,一股脑儿往这边涌。</br>斯坦福、CmU、deepmind……这些机构手里握着的算力,是他这种人做梦都摸不到的规模。</br>他必须跑快一点。</br>所以他来了西安。</br>“2013年全国计算机视觉与模式识别暑期研讨会”,主办方是西安交大和西工大,协办方拉了一长串,里头有两个国家级的超算中心。</br>这场会议在学界的分量不算最顶尖,但务实。</br>任少卿要的也不是顶尖,他要的是那两个超算中心的挂名负责人,以及他提前查过的、挂在西工大计算机视觉重点实验室名下的那一批国防科工委拨款的H系服务器集群。</br>他的如意算盘是:论文宣讲好,跟西部这边的大拿们混个脸熟,饭桌上开口“化缘”,借一批算力用三个月。</br>道理上没问题。</br>学术圈就是这么运转的。</br>任少卿走进报告厅大楼,扑面而来一股凉气,把他半干不湿的衬衫一下子激透了,打了个哆嗦,稍微舒坦了点,抬头看了眼指示牌。</br>计算机视觉分会场,三楼报告厅B。</br>宣讲安排在下午两点,是下午场的第二个报告。</br>现在是上午十点四十分。</br>时间够。</br>……</br>上午的大会主题报告,任少卿坐在后排,把论文草稿掏出来又过了一遍。</br>台上是一位西工大的老先生,做人脸识别做了二十多年,满头白发,声音洪亮,PPT是黑底绿字的经典配色,一页一页往下翻,每一页都有至少三段话。</br>老先生讲的是基于可形变模型的人脸特征点对齐,理论体系扎实、推导完备,是这个领域里毫无疑问的泰斗级工作。</br>任少卿认认真真地听,认认真真地鼓掌。</br>然后继续低头看自己的论文。</br>……</br>下午两点整,任少卿走上讲台。</br>报告厅里坐了大概七八十人,前排是几位头发花白的老教授,中间是一群年龄不一的副教授和研究员,后排是一大片跟他差不多大乃至更年轻的博士生和硕士生。</br>任少卿把U盘插进去,屏幕上亮出报告封面:</br>《基于改进卷积神经网络的目标检测:突破传统特征工程的范式》</br>他扫了一眼台下,做了个深呼吸。</br>“各位老师、各位同学,下午好。我叫任少卿,来自中科大与微软亚洲研究院的联合培养项目。今天我要跟大家分享的工作,核心出发点是一个我认为非常重要的问题——传统的手工特征,在目标检测任务上,是不是已经遇到了天花板?”</br>后排有几个博士生坐直了一点。</br>前排的老先生们,表情没什么变化。</br>任少卿继续往下走。</br>他讲架构,讲他对AleX的改进,讲数据增强,讲在PASCALVoC上跑出来的结果。</br>讲得快,但逻辑清晰,每一步推进都有据可查。</br>讲到第七页,他把那张对比折线图放到了最大。</br>“……在相同的测试集上,我们的方法在mAP指标上比当前最优的dPm模型高出了11.3个百分点。这个差距,我认为不是调参层面的改进,而是底层特征提取范式的本质性跃迁。”</br>报告厅里安静了大概两秒钟。</br>然后,前排左边第二个位置的老先生开口了。</br>任少卿认识这位老先生。</br>西安交大计算机视觉领域的老前辈,做了三十年图像处理,手底下出来的博士生如今遍布国内各大高校和研究院,标准的一代宗师。</br>“小伙子,”</br>老先生语气并不严厉,甚至带着点慈祥,</br>“你这个结果,训练的时候用了多少GPU?”</br>“四张NVIdIAGTX780,训练了大约十二天。”</br>老先生点了点头,慢条斯理地说:</br>“我想问你,这十二天、四张显卡跑出来的东西,在工程落地上怎么解决?你这个模型,推理一张图片需要多长时间?”</br>“目前大概是0.5到0.8秒每帧——”</br>“那实时检测呢?”</br>老先生温和地打断,</br>“工业摄像头要求的是25帧以上,你离这个目标还差多远?”</br>任少卿顿了一下。</br>——他当然知道差多远。他只是同样知道,五年后这个问题会变成什么样的答案。</br>“目前确实还不满足实时要求,但是——”</br>“还有,”</br>旁边另一位中年教授接过话头,语气更直接,</br>“你说比dPm高11个点,但你用的训练数据量是dPm的几倍?GPU算力消耗是dPm的几倍?这个对比,公平吗?”</br>“数据量大约是……两倍,”</br>任少卿深吸一口气,</br>“算力消耗相对更高,这点我承认。不过我想指出的是,随着GPU硬件成本持续下降,算力约束在未来三到五年内会快速缓解,到那个时候——”</br>“到那个时候再说到那个时候的事。”</br>中年教授语气不咸不淡,</br>“我们讨论的是2013年可落地的工作。”</br>后排有几个博士生没忍住,凑在一起交换了几句什么。</br>任少卿站在台上,握着激光笔的手指不动声色地收紧了一下。</br>他在组会上被导师骂过,被审稿人拒过,被同组的师兄用红笔密密麻麻划过论文草稿。</br>但今天这种感觉,不一样。</br>不是羞辱,老先生显然没有这个意思。</br>是隔阂。</br>是两个人分别站在两座山顶,隔着一道深不见底的沟壑喊话。</br>彼此都能听见声音,却没有一个人能确认,对方说的是不是同一件事。</br>老先生看到的是2013年的现实:算力稀缺,工程不成熟,理论可解释性不足。</br>任少卿看到的,是2016年,是2018年,是2020年。那是一条已经确定了走向的单行道。</br>所有在入口踟蹰不前的人,都会被后来的历史证明,站在了错误的一侧。</br>但他没法证明这件事。</br>他没有办法站在2013年,把未来的那些数字递给眼前这些前辈看。</br>“感谢各位老师的宝贵意见,”</br>任少卿调整了一下神情,扯出个平静的笑,</br>“工程落地和理论解释性的问题,我会认真思考,这部分工作确实还有很大的空间……”</br>剩下几页PPT快速过完,宣讲在稀稀落落的掌声里结束了。</br>……</br>报告厅外的走廊里,任少卿靠着一根石柱,把双肩包从肩膀上拽下来,随手扔在脚边,仰起头,盯着头顶白炽灯管里那道平静的光。</br>窗外,八月的夕阳把整个交大校园熏成了一片焦橙色,梧桐树的叶子在热风里懒洋洋地翻着肚皮。</br>他把今天下午的剧本在脑子里重放了一遍。</br>宣讲失败,这个结论不用再论证了。</br>那两位超算中心的挂名负责人,他宣讲一结束就特地凑过去,名片还没来得及换,对方就礼貌性地微笑着接了个电话走开了。</br>任少卿揉了揉太阳穴。</br>这趟西安,白来了。</br>从北京过来的机票和这两天的住宿,是他自掏腰包的。</br>导师给的差旅报销额度他留着出去参加顶会用,舍不得花在这种研讨会上。</br>想想都亏。</br>他弯腰把包捡起来,准备去找学生餐厅对付一顿。</br>“同学,等一下。”</br>任少卿回过头。</br>一个男生从他左边三米外走过来,大概十七八岁的样子,一头染得张扬的黄毛,大裤衩加白T恤,脖子上随便挂着个不知道从哪顺来的临时旁听证,脚上踩着一双半旧的运动鞋,要多随意有多随意。</br>这栋楼里全是西装和polo衫。</br>这个人跟所有人都格格不入。</br>但他走路的姿势,带着一股说不清楚的笃定。</br>他在任少卿面前停下来,抬起头,打量了他两秒,开口:</br>“你就是刚才做卷积神经网络目标检测报告的那位吧?”</br>任少卿微微一怔:</br>“是。”</br>那个黄毛少年把手插进裤兜,嘴角往上扯了一下。</br>“算力不够用?”</br>不是疑问句。</br>陈述句。</br>任少卿盯着他看了整整三秒,没有说话。</br>“我在锦城,”</br>黄毛少年语气轻描淡写,像在聊今晚吃什么,</br>“雅安大渡河边上有个数据中心,现在装机规模大概是几千张GPU,目前主要跑推荐算法和挖矿。不过,我刚抛了一笔比特币,下个月会有两千张英伟达最新的顶级计算卡进场,专门留给深度学习。”</br>他顿了顿。</br>“你有没有兴趣,去我公司上班?”</br>“算力,管够。”</br>PS:【糊涂旧岛】大佬送出的【礼物之王】加更三章第一章