随着大语言模型进入大规模商业化阶段,AI 服务的核心瓶颈已经从算力转向显存。单个用户的长上下文需求达到百万 token 级别时,对应的 KV Cache 消耗会达到 TB 级,远超单张 GPU 仅数十 GB 的物理显存容量。为破解 “物理显存极小、用户需求极大” 的核心矛盾,我们提出 AI 操作系统这一高层架构,以 GPU 显存管理为核心,借鉴传统操作系统虚拟内存的设计思想,通过分页机制、滑动窗口循环淘汰策略,搭配热 KV Cache 与冷 RAG 外部存储相结合的分层记忆模式,让每个用户会话都能拥有 “逻辑无限长的虚拟上下文”。同时系统内置智能检索 Agent,统一管理用户上传文件、图像、历史对话、知识库及实时搜索结果等外部记忆内容,本文档系统阐述该架构的设计理念、核心模块与工程落地关键考量。
AI 推理发展初期,行业核心关注点是提升模型计算速度,而当模型规模攀升至 70B、100B 甚至更大体量后,推理环节的真正制约因素不再是算力,而是显存带宽与容量。以 70B 模型为例,采用 INT4 量化后权重占用约 35GB,真正棘手的是 KV Cache 的消耗:FP16 精度下的 Llama2-70B 模型,单个 token 的 KV Cache 占用量为 2.5MB,换算下来,单个用户 32k token 的对话需要 80MB KV Cache,而百万 token 级别的长对话则需要 2.5TB KV Cache,这一数值远超单张 H100/H800 显卡 80GB 的显存上限。在多用户并发场景下,物理显存会快速耗尽,直接引发 OOM 崩溃问题。传统硬件虚拟化方案仅能做固定资源切分,无法解决 KV Cache 随上下文线性增长的核心难题,因此必须从操作系统层面重新设计 AI 服务的底层运行逻辑。
当前 AI 服务面临的显存矛盾,与早期 PC 时代的内存困境高度相似 —— 彼时 PC 物理内存仅有几 MB,却要支撑每个 32 位进程拥有 4GB 虚拟地址空间,如今单卡 GPU 显存仅 80GB,却要满足单个会话百万 token 级别的长上下文需求、数千人并发的无感知无限历史记忆,以及多模态输入的即时理解与永久记忆需求,二者的核心矛盾完全一致。对应的解决方案也一脉相承,即依托虚拟内存、分页管理与数据换出机制,实现资源的高效复用。AI 操作系统的核心使命,就是在 GPU 显存上搭建一套完整的虚拟内存子系统,让每个用户会话感知到无限长的上下文空间,同时将实际物理显存占用严格控制在设定配额之内,保障系统稳定运行。
AI 操作系统采用四层递进式架构,各层级权责清晰、协同运转,从上层交互到底层硬件形成完整的服务闭环。最上层是调度层,由智能检索 Agent 负责用户意图解析与检索调度;第二层是记忆层,承担外部冷数据的存储与管理职能,类比传统操作系统的文件系统;第三层是内核层,核心负责 GPU 显存虚拟化与并发调度,相当于传统操作系统的内存管理单元;最底层是硬件层,为整个系统提供 GPU 集群算力支撑,MIG 仅作为可选的硬件隔离手段存在。
内核层是 AI 操作系统的核心,聚焦显存虚拟化与高效调度,三大核心机制共同解决显存瓶颈问题。首先是 PagedAttention 分页机制,传统 KV Cache 要求连续显存空间,极易产生大量显存碎片,而 PagedAttention 将 KV Cache 切分为固定大小的页,按需为用户会话分配存储空间,短对话占用少量分页,长对话逐步增加分页数量,既彻底消除显存碎片,让显存利用率接近 100%,还能实现相同前缀页的多请求共享,减少冗余存储,这一机制相当于传统操作系统的内存管理单元,将物理显存抽象为虚拟 KV 空间。其次是滑动窗口搭配 Round Robin 循环淘汰策略,为避免单个会话无限制占用显存,系统为每个会话设定硬性 KV 配额,当会话 KV 分页达到上限时,新 token 进入会自动回收最旧的页面,分配给新 token 使用,实现 O (1) 复杂度的环形缓冲管理。这一策略与模型架构无关,即便模型采用全局注意力机制,推理引擎也可通过该策略强制控制显存占用,若模型原生支持滑动窗口,整体运行效率会更高,最终实现每个会话物理显存占用有上限,彻底杜绝 OOM 崩溃。最后是连续批处理并发调度,摒弃传统分时串行的低效率模式,调度器动态收集多个用户请求,合并成批次送入 GPU 处理,充分利用 GPU 并行算力,同时平衡请求延迟与吞吐效率,支持优先级设置、任务抢占与公平配额分配,保障多用户并发体验。
用户的长上下文历史、上传文件、图片、知识库等内容,无法全部存入显存中的 KV Cache,因此记忆层作为 AI 操作系统的外部存储,承担冷数据管理职能,形成 “热内存 + 冷存储” 的分层记忆体系。这一层容量近乎无限,访问延迟处于毫秒级,远慢于显存纳秒级的访问速度,需要通过检索实现数据调用,且支持数据持久化跨会话保留,完全类比传统操作系统的磁盘文件系统。所有外部数据都会被统一处理为可检索的单元:用户超出滑动窗口的历史对话以纯文本形式存储,转化为文本检索单元;上传的文档类文件会切分片段并生成向量索引,存入向量库;图片类数据通过 OCR 提取文字,或通过视觉语言模型生成视觉表征,搭配元数据存储;企业内部知识库提前完成片段切分与向量化处理,实时搜索结果作为临时检索单元存储。日常运行中,热记忆为存储在显存中的近期对话数据,全量参与注意力计算,延迟极低;冷记忆为所有超出窗口的外部数据,用户查询相关内容时,通过检索召回对应片段,重新注入 Prompt 并生成新的 KV Cache,让用户感知到 AI 拥有完整记忆,实则是冷热数据协同运作的结果。
调度层的智能检索 Agent,相当于传统操作系统的 IO 管理子系统,负责衔接外部冷记忆与内核层热记忆,在用户请求进入主模型推理前完成全流程调度。首先解析用户意图,判断用户问题属于闲聊、文档查询、图片分析还是需要实时信息;随后做出检索决策,确定是否需要召回历史对话、检索用户上传文件或企业知识库、是否触发联网搜索;接着将检索到的相关内容整理为文本片段,按相关性排序后,拼接到用户原始 Prompt 中;最后将优化后的 Prompt 送交大模型生成回答。同时,该 Agent 还会异步将新的对话内容写入外部存储,为后续检索储备数据,实现外部记忆的动态更新。
AI 操作系统并非抽象比喻,而是与传统操作系统逻辑完全对应的专用系统软件,核心模块可一一精准映射。传统操作系统的 CPU 与物理内存,对应 AI 操作系统的 GPU 与 HBM 显存;传统操作系统的虚拟内存分页与交换机制,对应 AI 操作系统的 PagedAttention 分页与 RAG 数据换出;传统操作系统的进程地址空间,对应 AI 操作系统用户会话的虚拟 KV 空间;传统操作系统的内存配额限制,对应 AI 操作系统会话 KV 硬上限与滑动窗口策略;传统操作系统的磁盘文件系统,对应 AI 操作系统的外部 RAG 向量库记忆;传统操作系统的 IO 调度与预读,对应 AI 操作系统的智能检索 Agent 与内容拼接;传统操作系统的中断处理,对应 AI 操作系统的异步检索回调;传统操作系统的多进程调度,对应 AI 操作系统的连续批处理与分时复用。这一映射关系充分证明,AI 操作系统是适配 AI 推理场景的专用系统,核心管理对象从 CPU、内存转变为 GPU、KV Cache。
AI 操作系统的第一性原理是显存管理,物理显存容量与用户长上下文需求的巨大差距,决定了显存虚拟化的必要性。其核心支撑为三大支柱,一是 PagedAttention 分页机制,实现虚拟 KV 空间,彻底消除显存碎片;二是滑动窗口与 Round Robin 淘汰策略,绑定物理显存占用上限,杜绝 OOM 问题;三是 RAG 外部存储,提供容量无限、速度适中的持久化冷记忆。智能检索 Agent 作为调度核心,实现外部记忆的自动化检索与注入,完成冷热记忆的无缝衔接。整套架构具备硬件无关性,可运行于各类 GPU 集群之上,仅需根据硬件特性做针对性优化,是当前商业化 AI 服务的核心底层架构。
未来 AI 操作系统将持续优化升级,一是推出更智能的淘汰策略,基于注意力分数筛选保留高价值 KV 页,替代简单的 FIFO 策略;二是深化 KV Cache 压缩技术,通过量化、低秩近似等方式进一步降低单 token 显存消耗;三是探索跨设备交换机制,将冷 KV 页换出至 CPU 内存甚至 SSD,拓展虚拟显存容量;四是推动原生滑动窗口模型普及,让模型在训练阶段就适配滑动窗口机制,进一步提升推理显存效率。
本白皮书基于深度技术讨论与工程实践反复校验整理而成,特别感谢论证过程中纠正关键数值误差、厘清硬件虚拟化定位、明确外部存储属性的专业意见。AI 操作系统仍处于早期探索阶段,本文档旨在搭建高层概念框架,为后续工程实现与学术研究提供基础思路。我们坚信,未来所有提供大模型服务的企业,都将搭建适配自身业务的 AI 操作系统内核,成为 AI 服务的核心基础设施。
文档版本 1.0
最后更新:2026 年 4 月
基于 CC BY-NC 4.0 许可共享