Gemma 4 | Notion

<aside> 💡

Nhận xét chung:

Model này hướng tới on-device, chạy edge device hơn:
- Bỏ kĩ thuật Altup → không tăng chiều khi tính toán → ổn định hơn khi nén → giảm năng lực
- Bổ sung cơ chế PLE để tăng độ chính xác → tăng dung lượng lưu trữ.
- Hybrid Attention → giảm nhiều memory với kỹ thuật Sliding window → quên context.
- Shared KV Cache→ tăng tốc + giảm VRAM -> giảm độ chính xác
- Đối với Vision → cung cấp nhiều lựa chọn budget token để encode ảnh </aside>

Sự xuất hiện của Gemma 4 đánh dấu một bước chuyển mình chiến lược của Google DeepMind trong việc dân chủ hóa AI hiệu năng cao. Không còn chạy theo cuộc đua quy mô thuần túy, Gemma 4 tập trung vào triết lý "intelligence-per-parameter" (trí tuệ trên mỗi tham số), nhằm mang năng lực suy luận của các mô hình frontier (như Gemini 3) xuống các phần cứng dân dụng với hiệu suất "byte-for-byte" tối ưu nhất.

1. Tổng quan Kiến trúc Hệ thống

Mổ xẻ cấu trúc của Gemma 4, chúng ta thấy một hệ thống decoder-only Transformer được tinh chỉnh cực độ để đạt tới giới hạn Pareto giữa độ chính xác và chi phí tính toán. Google cung cấp bốn biến thể chiến lược:

Dense Models: Bao gồm 31B (mô hình chủ lực), E4B và E2B. Trong đó, ký tự "E" (Effective Parameters) ám chỉ việc sử dụng Per-Layer Embeddings để duy trì memory footprint thấp nhất có thể trong khi vẫn đạt năng lực tương đương các model lớn.
Mixture-of-Experts (MoE): Biến thể 26B A4B (với 3.8B tham số kích hoạt - Active Parameters) là một minh chứng cho khả năng tối ưu độ trễ, cung cấp tri thức của model 26B nhưng với tốc độ thực thi của model 4B.
Khi Inference thì sẽ tiêu tốn khoảng:

Sơ đồ Pipeline xử lý thông tin:

Input Stage: Tiếp nhận đồng thời Text, Image (tỷ lệ khung hình biến thiên) hoặc Audio (trên các dòng E).
Embedding & PLE: Chuyển đổi input thành vector thông qua bảng vocab 262K và hệ thống Per-Layer Embeddings (PLE).
Attention Blocks: Xử lý qua các lớp Attention lai (Hybrid Attention).