Streaming = 数据分块送, 不一次性塞完。 一个 10 GB 的文件不会等加载完才开始处理, 而是边读边处理边写。LLM 不会等整段回复生成完才发, 而是逐 token 流式吐字。视频不会等全片下载完才播, 而是边下边播。
Backpressure = 接收方处理慢于发送方时, 反向施压让发送方"慢点"。 这是流式传输的"必备配套"——一旦数据持续流动, 处理速度永远不会完美匹配, 慢的一方必须有办法告诉快的一方 stop / slow / resume。
没有反压的流式传输是炸弹——快的一方持续灌, 慢的一方处理不过来, 中间缓冲区无限膨胀, 直到内存爆炸 / 进程崩溃 / 数据被迫丢弃。