Gemini 这个名字,这两年在外行眼里几乎成了“Google版GPT”的代名词,但稍微扒深一层就会发现,它和那些纯粹堆参数的聊天机器人完全是两码事。严格来说,Gemini是一套原生多模态的混合专家模型体系,它的核心思路不是“把文字模型修修补补来接图片”,而是从一开始就把图像、音频、视频、代码和文本当作同等的“第一公民”来训练。这种架构上的根本差异,决定了它在理解复杂场景时的上限。
Google DeepMind在2023年底拿出Gemini 1.0时,直接端出了三个尺寸的版本——Ultra、Pro和Nano。Ultra的峰值算力据说动用了数万台TPUv5,在MMLU(大规模多任务语言理解)上首次超越了人类专家,达到90.04%。但真正让工程师圈内兴奋的,是Nano版本:它能在Pixel 8 Pro上本地运行,不联网也能处理录音转文字、自动回复等任务,这意味着AI推理从云端下沉到了终端硅片。这种“一个架构覆盖数据中心到智能手机”的设计,几乎就是为苹果那种软硬一体的生态量身定做的。
混合专家的工程艺术
Gemini的另一个关键创新在于稀疏化混合专家网络。传统大模型每次推理时,所有参数都会被激活,参数量直接对应算力消耗。Gemini则把模型拆成数十个“专家子网络”,每次只根据输入内容激活最相关的几个专家。举个例子:你丢给它一张X光片让它写诊断报告,图像专家、医学知识专家和语言生成专家会被同时唤醒,但处理法律文本的专家模块会保持休眠。这种“按需调配”的思路,让它在保持性能的同时把推理成本压低了将近40%。
1M Token的上下文窗口
2024年初Gemini 1.5 Pro发布时,最震撼的消息是它能一次性处理100万Token的上下文——相当于《魔戒》三部曲的总字数,或者整整一季《权力的游戏》字幕。这意味着你可以把整部电影的帧序列、音频轨道、字幕文件一股脑塞进去,然后问“第二幕第三场中主角的潜台词是什么”。在技术层面,它能做到这一点靠的是“MoE + 注意力压缩”的组合拳,把长序列的注意力计算复杂度从平方级降到了线性级。对于苹果可能的用途:让Siri理解长达数小时的历史对话、完整邮件链,甚至是整个相册的照片和短视频,这时候“上下文”就不再是限制了。
与苹果的微妙关系
虽然苹果从未公开宣布与Google在Gemini上达成深度独家合作,但iOS 27的爆料中“基于Gemini技术重建”这一句,很可能指向两个层面:一是苹果确实在底层使用了Gemini的云端推理能力(通过Google Cloud API),二是苹果内部可能复制了Gemini的MoE架构思路,用自家A系列芯片和ANE(神经网络引擎)做了定制化剪枝。毕竟苹果一直强调隐私,如果完全依赖Google云端,用户数据上云的合规压力极大。更现实的方案是:本地跑一个Nano级别的轻量模型处理敏感数据,复杂请求才走云端Ultra/Pro。这种“双层模型”设计,恰恰是Gemini体系最擅长的。
所以,“Gemini技术到底是什么?”。它不是一个单一的聊天机器人,而是一套从芯片调度到算法架构的完整范式——原生多模态、稀疏化混合专家、超长上下文理解,以及云+端的弹性部署。理解了这套底层逻辑,再看苹果翻新Siri的做法,就明白为什么它们放着自家模型不用,偏偏要“拿来主义”。说到底,AI硬件的真实战争,从来不在参数表上,而在那些你看不见的架构折衷里。
