第396章我这有几千张GPU，你要吗？

八月的西安，是能把人烤出油来的那种热。不像锦城那种阴湿的蒸笼感，西安的毒日头是直接劈下来的，混着秦川平原上吹来的干热风，把整座城市炙烤得像一块巨大的砖窑。任少卿拎着一个鼓囊囊的黑色双肩包，从西安交大东门的公交站一路走进校园，衬衫后背湿透了大半，贴在脊梁骨上，黏糊糊的，难受得很。他低着头，盯着脚下的花岗岩路面，脑子里反复过今天宣讲的那三十二页PPT。第七页的实验数据。第七页，是整个报告的命门。任少卿闭上眼睛，那张对比折线图像刻进脑子里一样挥不去。他基于AleX架构改进的卷积神经网络模型，用东拼西凑的四卡GPU服务器跑出来的结果，在PASCALVoC2012数据集上，目标检测精度比学界主流的dPm模型高出了将近十一个百分点。十一个百分点。在他看来，这不是一个数字。这是一次典范转移。他二十七岁，中科大和微软亚洲研究院联合培养的博士生。去年从合肥到了一趟北京，跟着导师的组看完了Hinton组在ILSVRC比赛上用AleX把传统方法打得落花流水的完整论文。他当时就坐在微软大厦十二层的组会室里，咖啡都顾不上喝，盯着屏幕上那个把所有传统方法甩开将近十个百分点的成绩，心里某个地方“咔哒”一声，被什么彻底撬开了。那种感觉，他后来想了很久——大概类似于在一片乌压压的普通人里，突然认出了另一个同类。然后他就扎进去了。整整八个月，几乎把所有能腾出来的时间全部押进去。他在自己的研究方向里开了条岔路，拐进了当时连导师都半信半疑的深度学习丛林，靠着微软亚研院借给他的一小块GPU算力，把那套模型一点一点搭起来，调参，再调参，处理过拟合，再处理，换框架，换数据增强方式……然后跑出了那个让他失眠了整整一夜的数字。但他没法训练更大的模型。算力不够。微软亚研院给他划的那块算力有上限，还要跟组里其他项目排队。他算过了，如果要把网络规模再扩大一倍、数据集再丰富三倍，按现在能用的算力，连续不间断地跑，需要将近四十七天。他等不起。不是技术上等不起，是赛道上等不起。他清楚地感觉到，全球跑在这个方向上的人越来越多。去年AleX一出，全世界顶级实验室就像被点着了一样，一股脑儿往这边涌。斯坦福、CmU、deepmind……这些机构手里握着的算力，是他这种人做梦都摸不到的规模。他必须跑快一点。所以他来了西安。“2013年全国计算机视觉与模式识别暑期研讨会”，主办方是西安交大和西工大，协办方拉了一长串，里头有两个国家级的超算中心。这场会议在学界的分量不算最顶尖，但务实。任少卿要的也不是顶尖，他要的是那两个超算中心的挂名负责人，以及他提前查过的、挂在西工大计算机视觉重点实验室名下的那一批国防科工委拨款的H系服务器集群。他的如意算盘是：论文宣讲好，跟西部这边的大拿们混个脸熟，饭桌上开口“化缘”，借一批算力用三个月。道理上没问题。学术圈就是这么运转的。任少卿走进报告厅大楼，扑面而来一股凉气，把他半干不湿的衬衫一下子激透了，打了个哆嗦，稍微舒坦了点，抬头看了眼指示牌。计算机视觉分会场，三楼报告厅B。宣讲安排在下午两点，是下午场的第二个报告。现在是上午十点四十分。时间够。……上午的大会主题报告，任少卿坐在后排，把论文草稿掏出来又过了一遍。台上是一位西工大的老先生，做人脸识别做了二十多年，满头白发，声音洪亮，PPT是黑底绿字的经典配色，一页一页往下翻，每一页都有至少三段话。老先生讲的是基于可形变模型的人脸特征点对齐，理论体系扎实、推导完备，是这个领域里毫无疑问的泰斗级工作。任少卿认认真真地听，认认真真地鼓掌。然后继续低头看自己的论文。……下午两点整，任少卿走上讲台。报告厅里坐了大概七八十人，前排是几位头发花白的老教授，中间是一群年龄不一的副教授和研究员，后排是一大片跟他差不多大乃至更年轻的博士生和硕士生。任少卿把U盘插进去，屏幕上亮出报告封面：《基于改进卷积神经网络的目标检测：突破传统特征工程的范式》他扫了一眼台下，做了个深呼吸。“各位老师、各位同学，下午好。我叫任少卿，来自中科大与微软亚洲研究院的联合培养项目。今天我要跟大家分享的工作，核心出发点是一个我认为非常重要的问题——传统的手工特征，在目标检测任务上，是不是已经遇到了天花板？”后排有几个博士生坐直了一点。前排的老先生们，表情没什么变化。任少卿继续往下走。他讲架构，讲他对AleX的改进，讲数据增强，讲在PASCALVoC上跑出来的结果。讲得快，但逻辑清晰，每一步推进都有据可查。讲到第七页，他把那张对比折线图放到了最大。“……在相同的测试集上，我们的方法在mAP指标上比当前最优的dPm模型高出了11.3个百分点。这个差距，我认为不是调参层面的改进，而是底层特征提取范式的本质性跃迁。”报告厅里安静了大概两秒钟。然后，前排左边第二个位置的老先生开口了。任少卿认识这位老先生。西安交大计算机视觉领域的老前辈，做了三十年图像处理，手底下出来的博士生如今遍布国内各大高校和研究院，标准的一代宗师。“小伙子，”老先生语气并不严厉，甚至带着点慈祥，“你这个结果，训练的时候用了多少GPU？”“四张NVIdIAGTX780，训练了大约十二天。”老先生点了点头，慢条斯理地说：“我想问你，这十二天、四张显卡跑出来的东西，在工程落地上怎么解决？你这个模型，推理一张图片需要多长时间？”“目前大概是0.5到0.8秒每帧——”“那实时检测呢？”老先生温和地打断，“工业摄像头要求的是25帧以上，你离这个目标还差多远？”任少卿顿了一下。——他当然知道差多远。他只是同样知道，五年后这个问题会变成什么样的答案。“目前确实还不满足实时要求，但是——”“还有，”旁边另一位中年教授接过话头，语气更直接，“你说比dPm高11个点，但你用的训练数据量是dPm的几倍？GPU算力消耗是dPm的几倍？这个对比，公平吗？”“数据量大约是……两倍，”任少卿深吸一口气，“算力消耗相对更高，这点我承认。不过我想指出的是，随着GPU硬件成本持续下降，算力约束在未来三到五年内会快速缓解，到那个时候——”“到那个时候再说到那个时候的事。”中年教授语气不咸不淡，“我们讨论的是2013年可落地的工作。”后排有几个博士生没忍住，凑在一起交换了几句什么。任少卿站在台上，握着激光笔的手指不动声色地收紧了一下。他在组会上被导师骂过，被审稿人拒过，被同组的师兄用红笔密密麻麻划过论文草稿。但今天这种感觉，不一样。不是羞辱，老先生显然没有这个意思。是隔阂。是两个人分别站在两座山顶，隔着一道深不见底的沟壑喊话。彼此都能听见声音，却没有一个人能确认，对方说的是不是同一件事。老先生看到的是2013年的现实：算力稀缺，工程不成熟，理论可解释性不足。任少卿看到的，是2016年，是2018年，是2020年。那是一条已经确定了走向的单行道。所有在入口踟蹰不前的人，都会被后来的历史证明，站在了错误的一侧。但他没法证明这件事。他没有办法站在2013年，把未来的那些数字递给眼前这些前辈看。“感谢各位老师的宝贵意见，”任少卿调整了一下神情，扯出个平静的笑，“工程落地和理论解释性的问题，我会认真思考，这部分工作确实还有很大的空间……”剩下几页PPT快速过完，宣讲在稀稀落落的掌声里结束了。……报告厅外的走廊里，任少卿靠着一根石柱，把双肩包从肩膀上拽下来，随手扔在脚边，仰起头，盯着头顶白炽灯管里那道平静的光。窗外，八月的夕阳把整个交大校园熏成了一片焦橙色，梧桐树的叶子在热风里懒洋洋地翻着肚皮。他把今天下午的剧本在脑子里重放了一遍。宣讲失败，这个结论不用再论证了。那两位超算中心的挂名负责人，他宣讲一结束就特地凑过去，名片还没来得及换，对方就礼貌性地微笑着接了个电话走开了。任少卿揉了揉太阳穴。这趟西安，白来了。从北京过来的机票和这两天的住宿，是他自掏腰包的。导师给的差旅报销额度他留着出去参加顶会用，舍不得花在这种研讨会上。想想都亏。他弯腰把包捡起来，准备去找学生餐厅对付一顿。“同学，等一下。”任少卿回过头。一个男生从他左边三米外走过来，大概十七八岁的样子，一头染得张扬的黄毛，大裤衩加白T恤，脖子上随便挂着个不知道从哪顺来的临时旁听证，脚上踩着一双半旧的运动鞋，要多随意有多随意。这栋楼里全是西装和polo衫。这个人跟所有人都格格不入。但他走路的姿势，带着一股说不清楚的笃定。他在任少卿面前停下来，抬起头，打量了他两秒，开口：“你就是刚才做卷积神经网络目标检测报告的那位吧？”任少卿微微一怔：“是。”那个黄毛少年把手插进裤兜，嘴角往上扯了一下。“算力不够用？”不是疑问句。陈述句。任少卿盯着他看了整整三秒，没有说话。“我在锦城，”黄毛少年语气轻描淡写，像在聊今晚吃什么，“雅安大渡河边上有个数据中心，现在装机规模大概是几千张GPU，目前主要跑推荐算法和挖矿。不过，我刚抛了一笔比特币，下个月会有两千张英伟达最新的顶级计算卡进场，专门留给深度学习。”他顿了顿。“你有没有兴趣，去我公司上班？”“算力，管够。”PS：【糊涂旧岛】大佬送出的【礼物之王】加更三章第一章

第396章 我这有几千张GPU，你要吗？