NVIDIA Tesla V100 — chiếc GPU từng có giá hơn $10.000 (khoảng 255.000.000 VND) khi ra mắt cách đây 8 năm — hiện đang được rao bán trên eBay với mức giá chỉ khoảng $100 (khoảng 2.550.000 VND). Điều đáng ngạc nhiên hơn: trong các tác vụ suy luận AI LLM, nó vẫn đánh bại GeForce RTX 3060 12GB tới 42%. Đây là một thí nghiệm kỹ thuật thú vị, nhưng không phải ai cũng nên thử.
Tesla V100 là gì và tại sao nó vẫn "chiến" được?
NVIDIA Tesla V100 ra đời năm 2017, thuộc kiến trúc Volta — thế hệ GPU đầu tiên của NVIDIA trang bị Tensor Core, đơn vị tính toán chuyên dụng cho AI. Đây là sản phẩm thuần dành cho trung tâm dữ liệu, chưa bao giờ được bán lẻ dưới dạng card GeForce thông thường.
Thông số kỹ thuật đáng chú ý:
| Thông số | Chi tiết |
|---|---|
| CUDA Core | 5.120 nhân |
| Tensor Core | 640 nhân |
| Bộ nhớ | HBM2 16GB hoặc 32GB |
| Băng thông bộ nhớ | 898 GB/s |
| Bus bộ nhớ | 4.096-bit |
| TDP | 250W |
Hai yếu tố quyết định hiệu năng LLM của V100 chính là 640 Tensor Core và băng thông bộ nhớ HBM2 lên tới 898 GB/s. Suy luận LLM vốn bị giới hạn bởi tốc độ đọc/ghi bộ nhớ (memory-bandwidth bound), nên con số 898 GB/s — vượt xa GDDR6 của các card tiêu dùng hiện đại — chính là lý do GPU 8 năm tuổi này vẫn còn "đất dụng võ".
Kết quả kiểm thử: Vượt RTX 3060 42%, hiệu suất/watt cũng nhỉnh hơn
Kênh YouTube Hardware Haven đã thực tế mua và kiểm thử V100, so sánh trực tiếp với RTX 3060 12GB (5 năm tuổi) và Radeon RX 7800 XT 16GB (3 năm tuổi) trong môi trường AI LLM:
- Mô hình GPT-oss 20B tham số: V100 đạt ~130 Tokens/s, trong khi RX 7800 XT chỉ đạt ~90 Tokens/s.
- Gemma4:e4b (chạy qua ollama + openwebui): V100 nhanh hơn RTX 3060 tới 42%.
- Hiệu suất trên mỗi watt: Dù tiêu thụ điện cao hơn RTX 3060, V100 vẫn nhỉnh hơn 12% về chỉ số Token/sec/watt. Khi giới hạn công suất V100 xuống còn 100W, mức chênh lệch này tăng lên 41% so với RTX 3060.
Đáng lưu ý, kết quả này chỉ áp dụng cho tác vụ AI LLM. Với gaming hay các ứng dụng sáng tạo thông thường, V100 không phải lựa chọn phù hợp — và thực tế nó cũng chưa bao giờ được thiết kế cho mục đích đó.
Cạm bẫy phần cứng: Không phải cắm vào là chạy
Đây là phần quan trọng nhất mà bất kỳ ai quan tâm đều cần đọc kỹ. Card V100 trong bài kiểm thử sử dụng chuẩn kết nối SXM2 — một dạng connector dành riêng cho máy chủ, không tương thích với khe PCIe trên mainboard PC thông thường.
Để V100 hoạt động trong môi trường PC, Hardware Haven đã phải:
- Mua thêm adapter chuyển đổi SXM2 sang PCIe (kèm 2 đầu cắm nguồn 8-pin và 3 đầu quạt 4-pin)
- Tự chế ống dẫn khí bằng máy in 3D
- Gắn thêm quạt Noctua thổi thẳng vào tản nhiệt
V100 vốn được thiết kế để chạy thụ động (passive cooling) trong tủ rack có luồng khí cưỡng bức. Khi đưa vào case PC thông thường, việc tự chế hệ thống làm mát là bắt buộc. Tổng chi phí cho toàn bộ cấu hình (GPU + adapter + phụ kiện) vào khoảng $200 (khoảng 5.100.000 VND) — vẫn rẻ hơn RTX 3060 12GB hay RX 7800 XT 16GB trên thị trường hiện tại.
Giới hạn phần mềm: Điều ít ai nhắc đến
Ngoài rào cản phần cứng, V100 còn có một số hạn chế phần mềm cần cân nhắc cho việc sử dụng lâu dài:
- CUDA Toolkit 13 (phiên bản lớn tiếp theo) dự kiến sẽ ngừng hỗ trợ kiến trúc Volta, đồng nghĩa V100 có thể bị loại khỏi hệ sinh thái CUDA trong tương lai gần.
- V100 không hỗ trợ phần cứng cho các định dạng dữ liệu mới như FP8, BF16, hay tính năng Flash Attention — những thứ ngày càng phổ biến trong các framework AI hiện đại.
- Tuy nhiên, nếu chỉ chạy mô hình GGUF đã lượng hóa (như Q4_K_M), tác động là hạn chế vì các định dạng này được xử lý ở tầng phần mềm. Đây là hướng vận hành thực tế nhất với V100.
Riêng bản V100 32GB — phù hợp hơn cho các mô hình lớn — hiện có giá trung bình khoảng $749 (khoảng 19.100.000 VND) trên eBay tính đến tháng 5/2026, với mức thấp nhất ghi nhận là khoảng $683 (khoảng 17.400.000 VND).
Các lựa chọn thay thế thực tế năm 2026
Với những ai không muốn "mày mò" phần cứng, đây là bức tranh tổng quan các GPU tầm trung phù hợp cho LLM local hiện nay:
| GPU | VRAM | Giá tham khảo | Hiệu năng LLM ước tính |
|---|---|---|---|
| RTX 3060 12GB | 12GB GDDR6 | ~$200–250 (5.100.000–6.375.000 VND) cũ | Llama 4 Scout 17B: 12–16 tok/s |
| Intel Arc B580 | 12GB GDDR6 | $249 (~6.350.000 VND) MSRP | Mô hình 8B: ~62 tok/s |
| Radeon RX 7900 XTX | 24GB GDDR6 | — | Llama 3 70B Q4: 14–18 tok/s |
Intel Arc B580 nổi lên như một lựa chọn đáng chú ý: giá $249 (khoảng 6.350.000 VND), 12GB GDDR6, đạt 62 tok/s với mô hình 8B trong môi trường llama.cpp + IPEX-LLM — không cần bất kỳ thủ thuật phần cứng nào. RTX 3060 12GB cũ vẫn là lựa chọn an toàn và phổ biến nhất cho người mới bắt đầu xây dựng môi trường LLM local.
Đối với người dùng tại Việt Nam quan tâm đến việc chạy AI LLM cục bộ, các card như RTX 3060 hay Intel Arc B580 có thể tìm mua qua các kênh như Shopee, Lazada hoặc các cửa hàng linh kiện máy tính tại Hà Nội và TP.HCM với mức giá tương đương. V100 SXM2 thì gần như chỉ có thể đặt qua eBay quốc tế và đòi hỏi kinh nghiệm tự chế phần cứng nhất định.
