从姚班、系统研究到 `KV Cache` 创业：大模型基础设施的“缓存革命”为啥重要捏？

说明：本文是基于一次关于江鋆晨教授访谈内容的长篇技术评论与延伸解读。写法借鉴中文技术博客中常见的“概念扫盲 + 机制剖析 + 辛辣点评”路线，但不代表任何真人作者本人观点。

相关视频：https://youtu.be/yWTVEG9UIHo

★引子

◇一场访谈背后的时代信号

这期视频，表面上看，是芝加哥大学计算机系教授、KV Cache 初创公司 CEO 江鋆晨，回顾自己从清华姚班到 CMU 读博，再到成为大学教授，最后奔赴硅谷创业的经历。往深里看，它其实是一份关于【大模型基础设施】的案例研究。

为啥这么说捏？

因为这类访谈最有价值的地方，通常不在“某某大牛的人生履历很厉害”这种浅层八卦。履历当然好看，但如果只停留在履历崇拜，就跟看见别人用 vim 写代码，自己也赶紧换 vim，却不知道人家真正厉害的是抽象能力、工程判断和长期积累一样。工具只是表层，真正决定差异的是【判断问题的方式】。

江鋆晨的路径很典型：早年通过数学竞赛进入清华姚班，接受理论计算机的高强度训练；后来逐渐发现，自己并不喜欢证明抽象模型里的“理论上限”，而是更喜欢在真实系统中突破工程极限；再后来，他把系统研究、网络多媒体、工业界代码经验、教授生涯、创业判断串在一起，最终押注 KV Cache 这个看似底层、但很可能影响大模型时代基础设施分层的方向。

这条路线并不是“突然踩中风口”的童话。俺更愿意把它理解成：一个长期训练出来的系统工程师，在历史窗口期识别出了真正的瓶颈。

很多人谈 AI，喜欢盯着模型名字和参数量：GPT-4、Claude、Gemini、Llama、Qwen、DeepSeek，再配上一堆 7B、70B、405B。仿佛参数越大，就越接近“神谕机”。这就像早年某些电脑小白买机器，只看 CPU 主频，完全不管内存、硬盘、散热、电源和操作系统。最后买回来一台“参数表很豪华，开机像拉磨”的机器，体验堪比某些政务 App：理论上功能齐全，实际上能登录就算胜利。

大模型也是如此。

模型能回答问题，不等于回答得便宜；模型能读长上下文，不等于每次都应该从头读；模型能接入企业知识库，不等于企业愿意为每次重复计算付钱；模型能做长程推理，不等于基础设施能承受它的显存、带宽、延迟和调度压力。

于是，KV Cache 这种听起来不够“性感”的东西，反而变成了关键战场。

◇为啥说 `ChatGPT` 是 AI 的“互联网时刻”？

访谈里有个很重要的判断：ChatGPT 爆发后，很多学术界人士一开始认为这只是一次 hype。这个反应并不奇怪。学术圈见过太多“狼来了”。今天一个新框架号称革命，明天一个新模型号称通用智能，后天一个新 benchmark 又刷榜。看多了之后，研究者自然会形成免疫反应。

问题在于，这一次的信号不只来自论文，也不只来自 benchmark，而是来自【用户行为】。

一个技术是不是真的跨过历史拐点，不能只看论文有没有新意，也不能只看融资金额有多大，更不能只看发布会 PPT 做得有多炫。真正要看的，是普通人有没有把它纳入日常工作流。

互联网早期也是这样。TCP/IP、HTTP、浏览器、搜索引擎、电子邮件，单独看每个组件，未必都像神话一样耀眼。但当普通人开始用互联网通信、查资料、购物、娱乐、协作，技术就从实验室进入了社会操作系统。那一刻，互联网不再只是协议，而成了基础设施。

ChatGPT 的关键意义也在这里。它不是只给研究员玩的工具，而是让学生、程序员、律师、产品经理、创业者、媒体人、普通白领都产生强烈使用意愿。它第一次把 AI 从“专业系统”推向了“日常界面”。

为了避免有人抬杠，俺有必要说明一下：俺不是说 ChatGPT 等于真正的通用人工智能，也不是说它没有幻觉、偏见、隐私、版权、成本等问题。俺说的是，从【人类使用意愿】这个维度看，它跨过了临界点。

临界点一旦跨过，系统工程问题就会从幕后走到台前。

在用户很少的时候，系统可以靠堆机器撑；在上下文很短的时候，重复计算也没那么痛；在应用只是 demo 的时候，成本可以假装不存在。但当几亿人开始高频调用模型，当企业希望模型处理长文档、代码库、客服记录、合同、视频转写和数据库结果时，推理成本、缓存管理、上下文复用、调度系统就不再是“优化项”，而是【生死线】。

◇为啥“系统工程”比“模型崇拜”更重要？

外行看大模型，最喜欢问：“哪个模型最强？”

这个问题不能说错，但很片面。它有点像问：“哪款发动机马力最大？”问题是，一辆车不只由发动机构成。变速箱、轮胎、底盘、刹车、空气动力学、燃油系统、电子控制、驾驶场景，都会影响真实体验。你把赛车发动机装到拖拉机底盘上，结果大概率不是赛博超跑，而是一台很会自毁的机械怪物。

真正的大规模 AI 应用，需要回答一整串系统问题：

模型如何部署？
推理如何降本？
长上下文如何复用？
多轮对话如何记忆？
用户请求如何调度？
缓存如何管理？
不同硬件如何适配？
系统延迟如何控制？
数据隐私如何保护？
开源生态如何形成事实标准？

这些问题，大部分不是“再训练一个更大模型”就能解决的。它们属于【系统工程】。

系统工程的难点，在于它不是单点突破，而是多层权衡。为了降低延迟，你可能增加显存占用；为了降低显存占用，你可能牺牲一点精度；为了提高吞吐，你可能让单个请求等待更久；为了缓存更多上下文，你又会遇到一致性、压缩、淘汰策略、跨引擎兼容、多租户隔离等问题。

这就像城市交通。你不能只修一条高速路，然后宣布交通问题解决。路网、红绿灯、地铁、公交、停车场、通勤模式、土地规划，全都相关。哪个环节设计得像咱们天朝某些拍脑袋工程一样，最后就会出现“宏大叙事很漂亮，实际体验很崩溃”的奇观。

◇从一次个人经历看技术迁移

江鋆晨从理论转向系统，并不是简单地“逃离数学”。更准确地说，是从一种价值函数转向另一种价值函数。

理论计算机重视抽象、证明、边界、复杂度。它问的是：在某个形式化模型里，这个问题的上限和下限是什么？

系统工程重视实现、瓶颈、权衡、可扩展性。它问的是：在真实约束下，怎样让这个系统跑起来、撑住、扩展、降本，并且别在用户最多的时候突然躺平？

这两种训练都重要。但当一个技术进入大规模使用阶段，系统问题会变得越来越中心。

这也是这期访谈的主线之一：真正的技术洞察，经常来自学术、工业、历史、工程实践之间的交叉地带。只待在实验室里，容易把“能发论文”误认为“有真实价值”；只待在工业流水线上，又容易被眼前需求绑架，看不到底层架构的长期变化。

能把二者打通的人，才容易在拐点来临时看见别人看不见的东西。

★基本概念

◇啥是 `KV Cache`？

要理解 KV Cache，先得理解大语言模型推理的大致过程。

现在主流大语言模型大多基于 Transformer 架构。Transformer 的核心组件之一是 Attention，也就是注意力机制。它的基本思想是：模型在生成某个 token 时，需要看看前面哪些 token 对当前生成最重要。

在 Attention 里面，通常会有三类向量：

Query
Key
Value

可以用图书馆来打比方。

Query 像是你当前提出的问题：“我现在要找什么信息？”
Key 像是书籍索引：“这段内容大概讲什么？”
Value 像是书籍正文：“真正可以拿来用的信息是什么？”

模型每生成一个新 token，都要基于前面已有 token 的 Key 和 Value 来计算注意力。如果每一步都从头计算，成本会非常高。于是系统会把已经算过的 Key 和 Value 存起来，下次生成新 token 时直接复用。这些被保存下来的中间状态，就是 KV Cache。

换句话说，KV Cache 是大模型在推理过程中的【内部工作记忆】。

注意，这里的“记忆”不是人类意义上的长期记忆，也不是数据库里的原始文本。它不是给人看的，而是给模型看的。它是模型处理上下文之后形成的一组高维向量状态。

这点很关键滴。

很多人一听“缓存”，以为就是把文字存一下。不是。原始文本只是人类可读格式；KV Cache 则是模型内部可直接使用的计算结果。你可以把它理解成：模型已经把书读了一遍，脑子里形成了某种中间表征。下次再处理相同材料，就不一定非要从第一页重新读起。

◇为啥 `KV Cache` 会变成瓶颈？

早期很多人使用大模型，输入比较短。比如问一句：“帮我写个排序算法。”上下文短，缓存压力有限。

但应用一复杂，上下文立刻膨胀。用户开始希望模型读：

整个代码仓库
几百页 PDF
长篇会议记录
多轮客服对话
企业知识库
长视频转写文本
多代理协作轨迹

这时候，问题就来了。

在 Transformer 推理中，KV Cache 的大小通常随上下文长度增长。上下文越长，要存的 Key 和 Value 越多。显存不是无限的，内存不是无限的，带宽不是无限的，用户耐心更不是无限的。于是模型越想“记得多”，系统越容易“撑不住”。

这有点像开会。开 10 分钟，大家脑子还清楚；开 8 小时，中间不做笔记、不整理重点、不形成决策记录，最后所有人都开始用“原则上同意”“进一步研究”“高度重视”来互相催眠。某些组织对此应该很熟悉，毕竟他们擅长把信息熵最大化，把有效决策最小化。

对大模型来说，KV Cache 不是可有可无的优化，而是长上下文时代的基础设施问题。

◇`KV Cache` 和普通缓存有啥区别？

计算机系统里，“缓存”并不稀奇。CPU 有 L1 Cache、L2 Cache、L3 Cache；浏览器有缓存；数据库有缓存；操作系统有页缓存。

缓存的基本思想都是：把昂贵的计算结果或访问结果保存下来，下次直接复用。

但 KV Cache 有几个特殊之处。

第一，它不是简单存原文。比如用户输入一段代码，普通缓存可能存这段代码文本；KV Cache 存的是模型处理后的内部向量。

第二，它和模型结构强相关。不同模型、不同层数、不同注意力头、不同精度，KV Cache 的形态可能不同。你不能像存一个 JSON 文件那样随便搬来搬去。

第三，它的体积很大。长上下文、多用户、高并发场景下，KV Cache 会迅速吃掉显存和内存。

第四，它的复用价值很高。如果很多请求共享相同前缀，比如同一份代码库、同一份法律文档、同一套企业制度，那么重复计算就是纯浪费。把这些上下文的 KV Cache 做好复用，理论上可以省掉大量推理成本。

这就引出了江鋆晨团队押注的方向：把 KV Cache 从推理引擎内部的临时状态，抽象成一个独立的基础设施层。

◇为啥说它像“大模型专属视频”？

访谈里有个很形象的比喻：KV Cache 像是“给大模型看的三维视频”。

这个比喻很妙，因为它抓住了【原始输入】和【内部表征】之间的差异。

人类读文字，需要把文字转换成脑内表征。比如你读“一个红色苹果放在桌上”，大脑会构造画面。电影则跳过一部分文字解析过程，直接给你连续视觉刺激。因此，看电影常常比读剧本更“省脑”。

对大模型来说，原始文本就像“书”；KV Cache 则像模型已经消化过的“内部影像”。如果下次再让模型处理同一份长文本，从原文开始，等于让它重新读一遍书；如果直接复用 KV Cache，就像把已经内化的表征拿来继续用。

当然，这只是比喻。KV Cache 不是视频文件，也不是语义数据库。它是高维向量状态。但这个比喻帮助非专业读者理解：KV Cache 的价值，不只是“存东西”，而是存【模型已经完成的计算】。

★核心剖析

◇从理论计算机到系统工程：两种价值观的分野

江鋆晨早年进入清华姚班。姚班以理论计算机见长，强调数学、算法、复杂度、证明。这当然是顶尖训练。理论计算机有一种很迷人的美感：定义清晰，边界严格，证明漂亮。

但他后来发现，自己并不喜欢证明“理论上限”，更喜欢在工程中“突破极限”。

这背后其实是两种价值观。

理论路线关心的是：在抽象模型中，某个问题的上限和下限是什么？

系统路线关心的是：在真实约束下，如何把一个东西做出来、跑起来、扩展开、稳定住？

前者追求【形式化确定性】；后者面对【现实世界复杂性】。

举个例子。理论上，一个算法可能是 O(n log n)，另一个是 O(n)。但在真实系统中，后者可能因为缓存不友好、常数巨大、并行性差，反而跑不过前者。工程世界不会因为你的渐进复杂度漂亮就给你发奖状。机器只看实际吞吐、延迟、成本、可靠性。

这也是为啥系统研究必须接触工业界。闭门造车做系统，很容易造出“论文里很优雅，线上一跑就冒烟”的东西。是不是有点牛头不对马嘴？

◇教授和博士生的本质区别

访谈里还有一个重要观点：博士生通常是“解决问题的高手”，而教授必须学会“提出高价值问题”。

这句话非常值得咂摸。

博士阶段，训练重点是解决一个明确问题。导师给方向，学生读论文、做实验、写代码、跑数据、投稿。这个过程训练的是执行力、技术深度、科研品味。

但教授的任务变了。教授如果总是亲自下场解题，短期看效率高，长期看反而限制学生成长。更重要的是，教授要判断：什么问题值得做？什么方向未来五年会变重要？什么问题只是学术圈自嗨？什么问题一旦突破会改变工业系统？

这需要一种更稀缺的能力：【问题选择能力】。

很多人以为聪明就是解题快。其实在复杂系统中，最稀缺的是选题准。方向错了，越努力越糟糕。就像在错误的代码库里疯狂优化一个即将废弃的模块，CPU 占用降了 30%，但业务已经迁移了。技术上很勤奋，战略上很滑稽。

◇把高阶计算机课程当“历史课”读

江鋆晨提到，高阶 CS 课程，比如 Advanced OS、Advanced Networking，某种意义上是历史课。

这个说法很深。

很多学生上高阶课，只想学“最新技术”。但真正重要的，不只是某篇论文提出了什么机制，而是要理解：当时为什么会出现这个问题？当时的硬件条件是什么？网络条件是什么？用户需求是什么？为什么这个设计后来成功了？为什么另一些设计失败了？

技术史不是背年份，而是训练【趋势判断】。

比如你读操作系统历史，会发现很多问题反复出现：隔离、调度、缓存、一致性、权限、抽象泄漏。你读网络历史，会发现拥塞控制、端到端原则、分层设计、协议演化，一直在不同场景中变形重现。

如果不懂历史，你看到每个新技术都会觉得它“前所未有”；如果懂历史，你会发现很多所谓新问题，其实是旧问题在新约束下的重演。

KV Cache 也是如此。它表面上是大模型推理里的新问题，但底层仍然绕不开缓存层次、内存带宽、复用、淘汰策略、标准化接口这些老问题。

◇（注：技术菜鸟可以跳过这个小节）从 `Attention` 成本看缓存复用

稍微硬核一点说，Transformer 推理通常可以分成两个阶段：

Prefill
Decode

Prefill 阶段处理用户输入的上下文。比如你把一份长文档丢给模型，模型要先把这些 token 处理一遍，生成内部状态。

Decode 阶段逐 token 生成输出。模型每生成一个新 token，都要参考此前上下文和已生成内容。

当上下文很长时，Prefill 成本很高。比如你让模型读一个巨大代码仓库，模型必须先把这些 token 全部处理一遍。如果下一个请求仍然基于同一个代码仓库，只是问题不同，那么重新 Prefill 就是巨大浪费。

KV Cache 复用的核心逻辑是：

已经处理过的上下文，保留其 Key 和 Value
后续请求如果共享相同前缀或相同文档，就加载已有缓存
模型直接基于缓存继续推理
避免重复计算，降低延迟和成本

这里面会涉及很多工程难题：

如何判断两个上下文可以复用？
如何处理部分匹配？
如何压缩缓存？
如何在显存、内存、磁盘之间分层存储？
如何跨不同推理引擎兼容？
如何保证精度损失可控？
如何做缓存淘汰策略？
如何在多租户场景下保护隐私？

所以，KV Cache 绝不是“把向量存一下”这么简单。它更像一个大模型时代的【缓存操作系统】。

★俺的点评

◇学术界为啥容易误判产品拐点？

学术界误判 ChatGPT，不是因为学者笨。恰恰相反，很多学者太聪明，所以容易被自己的评估框架困住。

学术评估习惯看：

理论新意
benchmark 提升
论文贡献点
技术可解释性
与已有工作的关系

而产品拐点看的是：

用户是否高频使用
使用门槛是否足够低
是否改变工作流
是否形成生态依赖
是否引发基础设施重构

这两个评价体系不是一回事。

ChatGPT 对学术界来说，可能只是多个已有技术的组合；但对普通用户来说，它第一次把自然语言变成了通用操作界面。这就像图形界面对命令行的冲击。底层技术未必全新，但交互范式变了。

咱们天朝很多所谓“专家”尤其容易犯这个错误：用行政汇报式指标判断技术。今天开会说“高度重视”，明天成立专项小组，后天搞个大屏展示，最后交付一个登录都卡的系统。表格填得很完整，现实世界照样不买账。

◇为啥开源项目 `LMCache` 这种东西重要？

江鋆晨团队提到 LMCache 等开源项目，目标是把 KV Cache 做成独立标准层。

这事有两个层面的意义。

第一，技术层面。如果每个推理引擎都用自己的缓存格式，每个硬件后端都做自己的适配，生态会非常碎片化。开发者要在不同系统之间迁移，就会付出高昂成本。标准层可以降低摩擦，让上层应用不必关心太多底层细节。

第二，权力层面。基础设施标准往往决定生态权力结构。谁定义接口，谁就影响后来者的实现路径。开源项目如果能形成事实标准，就可能避免单一厂商垄断。

这就是开源精神的现实价值：它不是“免费代码”这么浅薄。开源更重要的是【可审计、可复现、可迁移、可制衡】。

在 AI 时代，如果所有关键基础设施都封闭在少数巨头的黑箱里，开发者就会变成平台租户。今天接口便宜，明天涨价；今天功能开放，明天封禁；今天说兼容，明天改协议。是不是很眼熟？互联网平台经济已经演过一遍了。

◇职业建议背后的底层逻辑

访谈最后给不同年龄段的人提建议。表面看是职业规划，深层看是关于【人生阶段与风险收益】的判断。

给 22 岁毕业生的建议是：不要优先追求稳定，而要做最难、最有挑战的事。

这不是鼓励所有人盲目冒险，而是因为年轻时的机会成本较低，学习曲线的价值很高。你在 22 岁解决难题，得到的不只是一个项目经历，而是一套认知模型和抗压能力。

给博士生的建议是：如果不打算留学术界，就要接触工业界真实问题。

这很实际。很多博士训练出来后，技术深度很强，但对真实业务缺乏体感。结果就是能写漂亮论文，却不知道用户到底痛在哪里。

给 25 到 26 岁职场人的建议是：可以考虑读博充电，或者加入有生存危机感的初创公司。

这里的关键词是【生存危机感】。一个组织如果没有真实压力，容易变成流程机器。人待久了，也会被流程驯化。AI 时代最危险的不是被模型直接替代，而是你长期做的事情本来就缺乏不可替代性，只是过去没人来替你。

给 30 岁左右的人建议是：寻找可信伙伴，做一件当下不被多数人看好的大事。

这其实是创业的核心。创业不是一个人热血上头，而是几个互相信任的人，在不确定环境下围绕高价值问题形成长期协作。

◇俺对“AI 取代人”的一点冷水

现在很多人谈 AI，容易走两个极端。

一种是神棍式乐观：AI 马上消灭所有工作，人类进入乌托邦。

另一种是末日式悲观：AI 马上替代所有人，大家一起失业。

俺觉得这两种都太粗糙。

更可能发生的是【任务重组】。

AI 会优先替代那些：

输入输出清晰
评价标准明确
上下文依赖低
不需要承担责任
可被大量样本训练
缺乏人与人之间信任关系

的任务。

但 AI 同时会放大那些：

能定义问题的人
能整合系统的人
能判断真实需求的人
能承担不确定性的人
能建立信任网络的人
能把技术转化为组织能力的人

的价值。

所以，问题不是“AI 会不会替代你”，而是：你的工作到底是在执行可压缩流程，还是在处理不可压缩复杂性？

用信息论说，低信息熵任务容易被压缩，高信息熵任务更难被完全自动化。很多职场人真正危险的地方在于：他们以为自己在做复杂工作，其实只是在复杂流程里做低熵动作。

★引申阅读

◇几本值得读的书

如果想理解江鋆晨访谈背后的技术和历史脉络，俺推荐几类书。

第一类是计算机系统：

《Computer Systems: A Programmer’s Perspective》
《Designing Data-Intensive Applications》
《Operating Systems: Three Easy Pieces》
《The Datacenter as a Computer》

这些书能帮助你理解：系统性能不是单点指标，而是层层抽象之间的权衡。

第二类是技术史：

《The Dream Machine》
《Dealers of Lightning》
《Where Wizards Stay Up Late》
《The Innovators》

这些书能帮助你理解：技术革命很少是凭空发生的，通常是几十年积累之后，在某个社会和市场条件下突然爆发。

第三类是复杂系统和组织：

《Thinking in Systems》
《The Fifth Discipline》
《Complexity: A Guided Tour》
《The Mythical Man-Month》

这些书能帮助你理解：为什么很多技术问题最后都会变成组织问题，为什么很多组织问题又会反过来限制技术系统。

◇几个值得继续追问的问题

第一，KV Cache 会不会成为大模型时代的“数据库层”？

如果上下文记忆可以被持久化、复用、压缩、迁移，那么它就不只是推理优化，而可能成为新的数据基础设施。

第二，KV Cache 标准化会由谁主导？

是开源社区？硬件厂商？云厂商？模型公司？推理引擎项目？不同主导者会带来不同生态格局。

第三，长上下文和外部记忆到底如何分工？

模型可以读百万 token，但不代表每次都应该读百万 token。未来系统可能会同时使用 RAG、KV Cache、向量数据库、结构化数据库、工具调用和长期记忆层。

第四，AI 基础设施会不会出现新的垄断？

如果少数公司控制模型、芯片、云、缓存标准、开发工具和分发渠道，那么开发者的自由度会被压缩。开源在这里不是情怀，而是生态制衡手段。

◇给读者的思考题

最后留几个问题，供你自己琢磨。

第一，你现在的工作中，有多少内容属于“重复计算”？

也就是说，你是不是经常把同样的背景材料、同样的业务逻辑、同样的上下文，一遍又一遍重新解释给不同的人或系统？

第二，如果把你的工作流看成一个 Transformer 推理过程，哪里是 Prefill，哪里是 Decode？

哪些准备工作可以缓存？哪些判断必须现场生成？

第三，你所在组织的“记忆”是存在文档里，还是存在少数老员工脑子里？

如果关键知识只存在某几个人脑中，那就是典型的【单点故障】。这种组织看似稳定，其实非常脆弱。

第四，你是在追逐风口，还是在识别瓶颈？

风口人人都看得见，瓶颈未必。真正的机会常常不在最热闹的舞台中央，而在大家都嫌麻烦、嫌底层、嫌不性感的地方。

江鋆晨这期访谈最有价值的地方，不只是告诉我们 KV Cache 很重要，而是展示了一种技术判断方式：从真实需求出发，观察系统瓶颈，理解历史周期，然后在复杂反馈网络中找到那个可能撬动全局的节点。

这套方法，比任何单一风口都更值得学。

blog

从姚班、系统研究到 KV Cache 创业：大模型基础设施的缓存革命

从姚班、系统研究到 `KV Cache` 创业：大模型基础设施的“缓存革命”为啥重要捏？

★引子

◇一场访谈背后的时代信号

◇为啥说 `ChatGPT` 是 AI 的“互联网时刻”？

◇为啥“系统工程”比“模型崇拜”更重要？

◇从一次个人经历看技术迁移

★基本概念

◇啥是 `KV Cache`？

◇为啥 `KV Cache` 会变成瓶颈？

◇`KV Cache` 和普通缓存有啥区别？

◇为啥说它像“大模型专属视频”？

★核心剖析

◇从理论计算机到系统工程：两种价值观的分野

◇教授和博士生的本质区别

◇把高阶计算机课程当“历史课”读

◇（注：技术菜鸟可以跳过这个小节）从 `Attention` 成本看缓存复用

★俺的点评

◇学术界为啥容易误判产品拐点？

◇为啥开源项目 `LMCache` 这种东西重要？

◇职业建议背后的底层逻辑

◇俺对“AI 取代人”的一点冷水

★引申阅读

◇几本值得读的书

◇几个值得继续追问的问题

◇给读者的思考题

从姚班、系统研究到 KV Cache 创业：大模型基础设施的缓存革命

从姚班、系统研究到 KV Cache 创业：大模型基础设施的“缓存革命”为啥重要捏？

★引子

◇一场访谈背后的时代信号

◇为啥说 ChatGPT 是 AI 的“互联网时刻”？

◇为啥“系统工程”比“模型崇拜”更重要？

◇从一次个人经历看技术迁移

★基本概念

◇啥是 KV Cache？

◇为啥 KV Cache 会变成瓶颈？

◇KV Cache 和普通缓存有啥区别？

◇为啥说它像“大模型专属视频”？

★核心剖析

◇从理论计算机到系统工程：两种价值观的分野

◇教授和博士生的本质区别

◇把高阶计算机课程当“历史课”读

◇（注：技术菜鸟可以跳过这个小节）从 Attention 成本看缓存复用

★俺的点评

◇学术界为啥容易误判产品拐点？

◇为啥开源项目 LMCache 这种东西重要？

◇职业建议背后的底层逻辑

◇俺对“AI 取代人”的一点冷水

★引申阅读

◇几本值得读的书

◇几个值得继续追问的问题

◇给读者的思考题

从姚班、系统研究到 `KV Cache` 创业：大模型基础设施的“缓存革命”为啥重要捏？

◇为啥说 `ChatGPT` 是 AI 的“互联网时刻”？

◇啥是 `KV Cache`？

◇为啥 `KV Cache` 会变成瓶颈？

◇`KV Cache` 和普通缓存有啥区别？

◇（注：技术菜鸟可以跳过这个小节）从 `Attention` 成本看缓存复用

◇为啥开源项目 `LMCache` 这种东西重要？