Định hướng "tự chủ hoàn toàn trên Apple silicon" của Siri thế hệ mới dường như đã có bước lùi đáng kể. Theo The Information (được Wccftech dẫn lại ngày 4/6/2026), Apple buộc phải để mô hình Gemini tùy biến quy mô hàng nghìn tỷ tham số chạy trên hạ tầng Google Cloud, đồng thời dựa vào tính năng mã hóa trong GPU NVIDIA B200 để bảo vệ dữ liệu người dùng. Tất cả thông tin hiện vẫn ở dạng rò rỉ và chưa được Apple, Google hay NVIDIA xác nhận chính thức.

"Private Cloud Compute" của Apple không kham nổi mô hình Gemini tùy biến

Theo Wccftech, Siri mới sẽ được vận hành bởi mô hình nội bộ có tên "Apple Foundation Models version 11" — thực chất là một biến thể tùy biến cao cấp của Gemini do Google cung cấp. Trước đây, Apple từng tuyên bố toàn bộ tác vụ AI tạo sinh sẽ được xử lý khép kín trên Apple silicon, một cam kết gắn liền với hình ảnh "ưu tiên quyền riêng tư" của hãng.

Tuy nhiên, mô hình Gemini tùy biến này được cho là có quy mô lên tới hàng nghìn tỷ tham số (trillions of parameters), vượt xa khả năng đáp ứng của hệ thống máy chủ "Private Cloud Compute" mà Apple đã đầu tư xây dựng. Hệ quả là một phần đáng kể các yêu cầu từ phía người dùng sẽ phải được chuyển thẳng tới mô hình Gemini đang chạy trên Google Cloud để đạt hiệu năng suy luận tối ưu.

Nhà báo Mark Gurman đánh giá mô hình này "có khả năng cạnh tranh với Gemini 3 và mạnh hơn đáng kể" so với mô hình hiện đang hỗ trợ phiên bản Siri được nâng cấp gần đây. Apple cũng được cho là đang áp dụng kỹ thuật "distillation" (chưng cất tri thức) để huấn luyện các mô hình nhỏ hơn chạy trực tiếp trên thiết bị, trong đó mô hình Gemini cấp phép từ Google đóng vai trò "mô hình giáo viên".

Giải pháp thỏa hiệp: dựa vào tính năng mã hóa trong khi xử lý của NVIDIA B200

Theo The Information, để xoa dịu lo ngại về quyền riêng tư khi Siri thực chất chạy trên máy chủ Google, Apple đang nghiêng về phương án triển khai GPU NVIDIA B200 ngay bên trong các trung tâm dữ liệu của Google. Yếu tố quyết định nằm ở tính năng mã hóa dữ liệu trong quá trình xử lý (in-use encryption) được tích hợp sẵn trên B200.

NVIDIA mô tả tính năng này như sau:

"Duy trì tính bảo mật và toàn vẹn của các mô hình AI triển khai trên GPU Rubin, Blackwell và Hopper."

"Cho phép thực thi an toàn các tác vụ AI nhạy cảm ở quy mô lớn với hiệu năng gần như nguyên bản (near-native performance), kể cả trong môi trường dùng chung hoặc đám mây."

Hiểu đơn giản: mặc dù mô hình chạy vật lý trong trung tâm dữ liệu Google, dữ liệu suy luận của người dùng vẫn được mã hóa bên trong GPU, khiến các lớp phần mềm phía Google không thể "đọc trộm" dưới dạng rõ. Đây chính là xương sống của giải pháp thỏa hiệp mà Apple đang hướng tới.

Kiến trúc xử lý ba tầng và những gì Apple đã từ bỏ

Nếu các thông tin từ The Information là chính xác, từ góc nhìn người dùng, Siri mới vẫn được giới thiệu như một trợ lý "tuân thủ tiêu chuẩn quyền riêng tư của Apple". Tuy nhiên, bên trong, hệ thống có thể được tổ chức theo ba tầng:

Tầng xử lýNền tảngVai trò
Mô hình nhẹ trên thiết bịApple siliconCác mô hình nhỏ được chưng cất từ mô hình giáo viên
Suy luận đám mâyNVIDIA B200 trên Google CloudMô hình Gemini tùy biến quy mô hàng nghìn tỷ tham số
Bảo vệ quyền riêng tưMã hóa tích hợp B200 (Rubin/Blackwell/Hopper)Mã hóa dữ liệu ngay trong GPU khi suy luận

Apple chấp nhận từ bỏ mảnh ghép cuối cùng trong kế hoạch ban đầu: tự vận hành toàn bộ hạ tầng suy luận đám mây. Cam kết "dữ liệu thô không lọt sang Google" được chuyển từ trách nhiệm hạ tầng nội bộ sang việc dựa vào lớp mã hóa phần cứng của NVIDIA.

Hợp đồng 1 tỷ USD mỗi năm cho mô hình 1,2 nghìn tỷ tham số

Quy mô tài chính và kỹ thuật của thỏa thuận Apple-Google cũng dần hé lộ qua các báo cáo bên lề:

  • Apple được cho là sẽ chi khoảng 1 tỷ USD mỗi năm (tương đương khoảng 25.500 tỷ VND) cho Google.
  • Mô hình Gemini tùy biến dành riêng cho Siri/Apple Intelligence có quy mô 1,2 nghìn tỷ tham số.
  • Con số này gấp khoảng 8 lần mô hình đám mây 150 tỷ tham số mà Apple từng vận hành.
  • Hai bên đã ra thông cáo chung về một hợp đồng nhiều năm.

Mức chi 1 tỷ USD/năm cho thấy quy mô bài toán mà Apple buộc phải đánh đổi: định hướng "khép kín trên Apple silicon" rõ ràng không còn khả thi với một mô hình ở cấp độ 1,2 nghìn tỷ tham số.

Lớp bảo mật đa tầng của B200: từ bộ nhớ GPU đến NVLink

Tính năng Confidential Computing trên B200 không chỉ giới hạn ở việc mã hóa bộ nhớ GPU. Ở chế độ CC (Confidential Computing) của thế hệ Blackwell, toàn bộ dữ liệu trên bộ nhớ GPU — bao gồm trọng số mô hình, dữ liệu huấn luyện và kết quả suy luận — đều được mã hóa.

Trong cấu hình multi-GPU passthrough, lưu lượng giữa các GPU qua NVLink cũng được mã hóa bằng phần cứng, còn lưu lượng CPU-GPU đi qua bounce buffer được mã hóa tương ứng. Cơ chế Dual Remote Attestation kết hợp giữa Intel TDX và NVIDIA cho phép xác thực bằng mật mã rằng khối lượng công việc đang chạy trên phần cứng chính hãng với mã không bị can thiệp. Corvex gần đây tuyên bố đã hoàn tất triển khai Confidential Computing trong môi trường sản xuất trên HGX B200 — dấu hiệu cho thấy năng lực bảo mật này đã sẵn sàng cho các dự án quy mô lớn như Apple-Google.

Ý nghĩa với người dùng Việt Nam

Đối với người dùng iPhone tại Việt Nam, kiến trúc ba tầng này có một số hệ quả thực tế đáng lưu ý. Thứ nhất, các tác vụ AI nhẹ trên thiết bị vẫn sẽ xử lý cục bộ, không phụ thuộc kết nối internet — phù hợp với điều kiện mạng không đồng đều ở nhiều khu vực. Thứ hai, các yêu cầu phức tạp sẽ cần đường truyền tới máy chủ Google Cloud ở khu vực châu Á — Thái Bình Dương, đồng nghĩa độ trễ và tính ổn định sẽ phụ thuộc vào chất lượng kết nối quốc tế của Viettel, VNPT hay FPT Telecom.

Quan trọng hơn, người dùng nên theo dõi xem Apple sẽ công bố chính sách Siri tại các thị trường ngoài Mỹ ra sao. Tại Việt Nam, Apple Intelligence chưa được kích hoạt đầy đủ, và bài toán pháp lý liên quan tới việc dữ liệu suy luận đi qua hạ tầng của bên thứ ba (Google) có thể là một biến số cần lưu tâm trong những phiên bản iOS sắp tới.

Cần lưu ý: thông tin vẫn ở dạng rò rỉ

Toàn bộ thông tin nói trên chưa được Apple, Google hay NVIDIA xác nhận chính thức. Nguồn gốc là phóng sự điều tra của The Information, sau đó được Wccftech dẫn lại. Các chi tiết như tên mô hình "Apple Foundation Models version 11", nhận định của Gurman về Gemini 3, hay quyết định chọn B200 đều đang ở dạng rò rỉ.

Ở thời điểm hiện tại, cách diễn giải hợp lý là: định hướng ban đầu "hạ tầng đám mây của Siri hoàn toàn do Apple tự vận hành" có thể đã được điều chỉnh sang phương án "thuê B200 trên Google Cloud, bù đắp bằng mã hóa phần cứng". Cấu hình cuối cùng vẫn có thể thay đổi, và người dùng nên chờ thông báo chính thức từ Apple — nhiều khả năng tại WWDC sắp tới — trước khi đưa ra kết luận.

Nguồn