长连接无处不在:Agent 架构背后的通信真相
长连接无处不在:Agent 架构背后的通信真相
一句话概括:Agent 架构里几乎每一条链路——UI ↔ Agent、Agent ↔ LLM、Agent ↔ MCP——都是长连接。这不是工程师故意”炫技”,而是被 LLM 的流式生成这一底层特性逼出来的必然结果。一旦生成是”边想边说”的,请求-响应就塌了,整条链路都得跟着流起来。
一个你可能忽略的细节
打开 ChatGPT、Claude、Cursor 这些 AI 应用,你都会看到同一个现象:
回复是一个字一个字”蹦”出来的,不是整段刷新出来的。
看起来只是个动画效果?不是。
它背后是整个 Agent 架构区别于传统 Web 应用的底层通信范式——没有任何一个字是等全部生成完才发过来的,每一个 token 都是实时推送的。
再往深看一层,你会发现:
- 浏览器和 Agent 服务之间,连接一直没断
- Agent 和 LLM 厂商(OpenAI / Anthropic)之间,连接也没断
- Agent 和它调用的 MCP Server 之间,连接还是没断





