父母来美国参加我的毕业典礼,顺便在美国玩一圈——这也算是我工作之后的第一次真正意义上的长假。这篇主要记的是工作上的几条体会。

先简单解释一下:为什么我现在才参加毕业典礼?美国博士的毕业典礼里有一项 hooding:导师亲手给你披上学位披肩。这场仪式一年只有一次。我去年四月底答辩,正好错过去年的那一届,所以今年回安娜堡补上这一场。

我去年 5 月 12 日入职;这次休假一直排到 5 月 13 日。出发前,从入职日算起的这一工作年度里的最后一天班也已经上完了(偷笑)。

本来没打算写这些,但睡不着,就随手记一点。

临走前,组里一位前辈问我:你工作差不多有一年半了吧?我说还差大约两周。他一脸震惊。我差点笑出声——确实,我刚进公司的时候,也完全不知道自己会具体做什么。到现在前前后后已经参与过四颗 chiplet,外加一堆杂七杂八的事。回头看,挺魔幻的。

在 Jim 身边工作当然是一种很特别的体验。我和他个人直接接触不算多,但他的风格和哲学渗透在公司的方方面面。下面主要还是我自己的一些想法。

再往下几段与旅行、典礼无关,只是最近脑子里常转的几件事,随手记下来。

工作上的思考

芯片最难的是管理

朋友常问:上班之后最大的体悟是什么?我的答案是:管理和领导力被严重低估了。大家都觉得架构、功耗、性能、互联、封装、软件……很难。确实难,但这些问题大多还能在技术层面一层层啃下来。真正难的是让芯片走完 tape-out、bring-up、量产与客户侧那一整条链,最后在真实负载下稳定可用。做过芯片的人都懂这句话的分量:把整条链路走通,复杂度极高。要投入人力做架构设计和建模,要对接各家 vendor 和供应商,公司内部还要把 arch、SoC、IP design、PD、DV、系统、软件、产品等一串角色对齐。每一次对齐里都可能藏着无数问题。若还要 stick to schedule,性能、进度和成本之间的取舍又该落在哪儿。几乎每个环节都可能变成瓶颈——所以真正的难点,往往是如何把这样一个复杂流程管好。这里说的「管理」不只是在 org chart 上的 people manager:优先级谁拍板、关键接口人是谁、出事了走哪条升级链、例会节奏该不该加一档,都算在内。一个很常见的失配是:架构接口还在变,后端实现窗口却已经锁死,最后只能靠临时补丁硬接。好的管理真的是成功的基石。具体怎么管好,留作课后思考;以后若有机会,也许会写一点我学到的东西。

完成产品闭环

接上条。半导体生产周期很长,一个人做完一个项目就 move on 了,他的那部分产出可能要一两年才真正到用户手里。面向客户的团队收集到的用户反馈,如果不能及时回流到前端团队,同样的错误就会 over and over again 地重演。除了「把话传回去」,复盘纪要、跨团队例会、以及可检索的设计文档,往往才是让经验不再流失的最小抓手。更关键的是明确触发条件和责任人:例如出现 P0 级客户问题后,谁在两周内组织一次跨团队复盘。硬件开发不像软件那样短平快,反馈天然滞后、很难即时;在这种条件下,如何把闭环做起来,反而更难。

利用 AI

去年我还在「古法编程」,今年按现在的模型定价和自己的用量粗算,一天烧掉一百美元量级的 token 并不稀奇。挺魔幻的。用 AI 首先需要的是思维上的切换:从「先把事情弄明白、想好怎么做,再去执行」,转向「怎样算把事情做好了、我需要哪些信息、怎样验收、怎样把做事的方法 consolidate 下来以便复用」。这种转变本身,往往是最难的一步。当然也不是所有环节都该一把梭给 AI:涉及高风险决策、跨团队承诺和最终 sign-off 的部分,还是需要人来兜底。

通用才是王道

Jim 最近说过大意如下的话(非原文逐字引用,凭记忆转述):大家都在谈专用硬件,但模型迭代太快,把赌注全押在过窄的专用化上的人,其实应该感到紧张。纵观大规模量产产品的工程史,过度定制化的设计很少能笑到最后。每个人都觉得自己很懂 LLM 和 AI 的走向,但模型内部任何一层架构上的创新——哪怕看起来很小——都可能对硬件产生 meaningful 的影响,更不用说未来的多模态、模型与信息形态的多样化。所以市场真正需要的,未必是「更快的推理芯片」「更快的训练芯片」「更快的 agent 芯片」,而是更好的 AI computer。注意我说的是 computer。很多人知道怎么做芯片、怎么写软件,却不太清楚 how a computer works。我们需要的是一台更好的计算机——这是一件系统性的事。

要去赶飞机了。今天先写到这里:)

如果后面有空,我想单开一篇写「管理和闭环」里那些真正可执行的做法。