Viễn cảnh smartphone có thể chạy mô hình ngôn ngữ lớn (LLM) ngay trên thiết bị, không cần gửi dữ liệu lên cloud, đang trở nên rõ ràng hơn bao giờ hết. Google vừa công bố phiên bản Quantization-Aware Training (QAT) của mô hình mở Gemma 4, với mức RAM yêu cầu trên thiết bị di động được giảm xuống chỉ còn khoảng 1GB, theo Android Authority. Đây là bước tiến đáng chú ý đối với cộng đồng nhà phát triển và người dùng nâng cao tại Việt Nam, nơi nhu cầu chạy AI offline đang tăng song hành với mối quan tâm về quyền riêng tư.
QAT vượt giới hạn của PTQ: nén ngay trong quá trình huấn luyện
Để LLM có thể vận hành trên smartphone hay laptop, kỹ thuật lượng tử hóa (quantization) gần như là điều kiện bắt buộc nhằm giảm dung lượng bộ nhớ. Cách tiếp cận phổ biến hiện nay là Post-Training Quantization (PTQ) — nén mô hình sau khi đã huấn luyện xong. Tuy nhiên, PTQ thường gây suy giảm chất lượng đầu ra, đặc biệt ở các tác vụ suy luận phức tạp.
Gemma 4 QAT lựa chọn cách làm khác: nhúng quy trình lượng tử hóa vào ngay giai đoạn huấn luyện. Theo blog chính thức của Google, mô hình thu được không chỉ giữ được chất lượng vượt trội so với checkpoint nén bằng PTQ, mà còn cải thiện tốc độ giải mã (decode) khi triển khai thực tế.
Lược đồ nén tối ưu cho thiết bị di động
Gemma 4 QAT sử dụng một lược đồ lượng tử hóa được thiết kế riêng cho môi trường mobile và laptop. Các kỹ thuật được Google công bố bao gồm:
- Sử dụng cấu hình lượng tử hóa đã được tính toán sẵn (pre-computed)
- Áp dụng nén 2-bit cho một phần mô hình
- Nén danh sách từ vựng (vocabulary) và bộ nhớ ngắn hạn (short-term memory)
Google khẳng định những mô hình này "duy trì chất lượng tương đương bfloat16, đồng thời giảm mạnh dung lượng bộ nhớ cần thiết khi tải mô hình". Với người dùng cuối, điều đó có nghĩa là phản hồi AI có thể xảy ra hoàn toàn offline — không độ trễ mạng, không lo dữ liệu cá nhân bị gửi đi nơi khác.
Năm phiên bản kích thước, bản nhỏ nhất chỉ 1GB RAM
Theo thông tin được công bố, Gemma 4 QAT có năm phiên bản:
- Gemma 4 E2B
- Gemma 4 E4B
- Gemma 4 12B
- Gemma 4 26B A4B
- Gemma 4 31B
Trong đó, Gemma 4 E2B — phiên bản chỉ xử lý văn bản — là mô hình nhẹ nhất, yêu cầu khoảng 1GB RAM khi chạy trên thiết bị di động. Đây là mức hoàn toàn khả thi với những chiếc smartphone tầm trung-cao cấp đang phổ biến tại Việt Nam như Samsung Galaxy A series, Xiaomi Redmi Note, hay các dòng Oppo Reno. Google cũng đã công bố biểu đồ chi tiết về yêu cầu bộ nhớ cho từng phiên bản.
Bốn định dạng phát hành, có mặt trên Hugging Face và LM Studio
Mô hình được phân phối dưới bốn định dạng: checkpoint QAT chưa lượng tử hóa, GGUF (GPT-Generated Unified Format), bản tối ưu cho mobile, và Compressed Tensors. Sau khi tải về, người dùng có thể chạy mô hình trên smartphone, laptop hoặc desktop tùy nhu cầu.
Các phiên bản dành cho mobile và desktop có thể tải từ Hugging Face, hoặc thông qua LM Studio. Với người mới bắt đầu thử nghiệm, lựa chọn thực tế là khởi động với E2B cho các tác vụ nhẹ như tóm tắt, dịch hay trả lời ngắn, sau đó nâng lên E4B trở lên nếu cần xử lý văn bản dài hoặc suy luận phức tạp hơn.
So sánh với Phi-4 Mini, Llama 3.2 và Qwen 2.5
Phi-4 Mini (3.8B tham số) của Microsoft được đánh giá là mô hình có khả năng suy luận tốt nhất ở phân khúc dưới 4B, vượt cả Gemma 3 4B và Llama 3.2 3B trong các tác vụ Chain-of-thought. Trong khi đó, Gemma 3 4B đạt khoảng 27 tok/s trên iPhone 16 Pro khi sử dụng Google AI Edge SDK. Bảng dưới so sánh dung lượng bộ nhớ ở mức lượng tử hóa Q4_K_M:
| Mô hình | RAM (Q4_K_M) |
|---|---|
| Phi-4 Mini 3.8B | ~2,7GB |
| Llama 3.2 3B | ~2,2GB |
| SmolLM 2 1.7B | ~1,1GB |
| Qwen 2.5 1.5B | ~1,0GB |
Nếu ưu tiên khả năng suy luận, Phi-4 Mini là lựa chọn hàng đầu; còn nếu cần tiết kiệm RAM, Qwen 2.5 1.5B hoặc SmolLM 2 1.7B sẽ phù hợp hơn. Người dùng nên cân nhắc giữa độ nặng của tác vụ và dung lượng bộ nhớ khả dụng trên thiết bị.
NPU và sự bùng nổ của thị trường edge AI
Hiệu năng NPU trên SoC di động cũng đang tăng nhanh. Qualcomm Snapdragon X2 Elite Extreme đạt 80 TOPS, gấp đôi thế hệ trước. Bản thân Gemma 4 QAT, theo Google, có thể đạt tốc độ suy luận nhanh gấp đôi và giảm 40–50% bộ nhớ so với phiên bản FP16 khi chạy trên NPU di động.
- Coral NPU: Google công bố nền tảng AI cạnh siêu tiết kiệm điện này, cung cấp hiệu năng 512 GOPS chỉ với vài mW
- Quy mô thị trường: Phần cứng edge AI dự kiến đạt khoảng 30,7 tỷ USD (khoảng 782.850.000.000.000 VND) vào năm 2026, riêng chip tối ưu suy luận có thể vượt 50 tỷ USD (khoảng 1.275.000.000.000.000 VND)
- Suy luận cục bộ: Khi quá trình suy luận diễn ra hoàn toàn trên thiết bị, prompt và hình ảnh không bị gửi ra ngoài
Sự kết hợp giữa nâng cấp TOPS phần cứng và kỹ thuật nén QAT đang tạo nên một giai đoạn mà AI on-device thực sự trở nên khả thi với người dùng phổ thông.
Ý nghĩa với người dùng và nhà phát triển Việt Nam
Tại Việt Nam, nơi mạng di động đôi khi không ổn định ở vùng ngoại thành và mối quan tâm về quyền riêng tư dữ liệu ngày càng tăng, khả năng chạy LLM hoàn toàn offline là một lợi thế thực tế. Cộng đồng lập trình viên có thể tận dụng Gemma 4 E2B để xây dựng ứng dụng Tiếng Việt hoạt động ngay trên thiết bị — từ trợ lý ghi chú, tóm tắt tài liệu, đến công cụ dịch nhanh — mà không phụ thuộc vào hạ tầng cloud nước ngoài.
Câu hỏi thường gặp
Sự khác biệt giữa QAT và PTQ là gì? PTQ lượng tử hóa mô hình sau khi huấn luyện xong, dễ gây suy giảm chất lượng. QAT nhúng lượng tử hóa vào quy trình huấn luyện, giúp duy trì chất lượng gần với bfloat16 trong khi giảm mạnh yêu cầu bộ nhớ.
Phiên bản nào phù hợp để chạy trên smartphone? Gemma 4 E2B (chỉ văn bản) yêu cầu khoảng 1GB RAM, phù hợp nhất với smartphone. Nếu cần hiệu năng cao hơn, E4B trở lên là lựa chọn, nhưng yêu cầu bộ nhớ cũng tăng tương ứng.
QAT có chạy được offline không? Có. Mô hình được thiết kế để tải trọng số về và chạy cục bộ, nên về nguyên tắc không cần kết nối cloud. Dữ liệu đầu vào cũng không bị gửi ra máy chủ bên ngoài.
