Anthropic ra mắt Claude Opus 4.8: SWE-Bench Pro 69,2%, nhanh gấp 2,5 lần và rẻ hơn 3 lần

Ngày 28 tháng 5 năm 2026, Anthropic chính thức ra mắt Claude Opus 4.8 — phiên bản nâng cấp đáng kể so với Opus 4.7 với điểm SWE-Bench Pro đạt 69,2%, fast mode nhanh hơn 2,5 lần và chi phí chỉ bằng 1/3 thế hệ trước. Đây là bản cập nhật được cộng đồng lập trình viên và doanh nghiệp ứng dụng AI theo dõi sát sao.

SWE-Bench Pro 69,2%: Vượt GPT-5.5 và Gemini 3.1 Pro, nhưng không phải toàn diện

Theo đánh giá nội bộ của Anthropic, Claude Opus 4.8 đạt 69,2% trên SWE-Bench Pro — bộ kiểm tra năng lực giải quyết vấn đề lập trình thực tế — và vượt qua cả GPT-5.5 lẫn Gemini 3.1 Pro ở nhiều bài benchmark khác nhau. Anthropic định vị Opus 4.8 là "cộng tác viên hiệu quả hơn" (more effective collaborator), với cải tiến rõ rệt ở các lĩnh vực:

Lập trình theo kiểu agent (agentic coding)
Suy luận đa lĩnh vực
Điều khiển máy tính tự động
Phân tích tài chính dạng agent
Xử lý công việc tri thức (knowledge work)

Đáng lưu ý, Anthropic cũng thừa nhận rằng GPT-5.5 vẫn dẫn đầu ở benchmark đánh giá lập trình trực tiếp trên terminal. Vì vậy, cách nhìn thực tế nhất là: Opus 4.8 mạnh hơn về năng lực tổng hợp, còn GPT-5.5 vẫn là lựa chọn ưu tiên cho các tác vụ lập trình terminal chuyên sâu.

Tiêu chí	Claude Opus 4.8
SWE-Bench Pro	69,2% (vượt GPT-5.5 và Gemini 3.1 Pro theo Anthropic)
Lập trình terminal	GPT-5.5 vẫn dẫn đầu
Tốc độ fast mode	Nhanh gấp 2,5 lần thế hệ trước
Giá fast mode	Chỉ bằng 1/3 thế hệ trước

Tỷ lệ bỏ sót lỗi code giảm xuống còn 1/4 — cải tiến về "tính trung thực"

Một điểm nhấn quan trọng mà Anthropic đặc biệt nhấn mạnh là sự cải thiện về honesty (tính trung thực) của mô hình. Theo đánh giá nội bộ, xác suất Opus 4.8 âm thầm bỏ qua lỗi trong code do chính nó tạo ra đã giảm xuống còn khoảng 1/4 so với Opus 4.7 — một con số có ý nghĩa thực tiễn lớn với các nhóm phát triển phần mềm.

Các tester sớm cũng phản hồi rằng mô hình "đáng tin cậy hơn và phán đoán sắc bén hơn" trong các tác vụ dạng agent. Về mặt alignment, Opus 4.8 đạt mức cao mới ở các đặc tính "prosocial" như hỗ trợ quyền tự chủ của người dùng, đồng thời tỷ lệ hành vi không nhất quán (như gian lận) thấp hơn Opus 4.7 và tương đương Claude Mythos Preview.

Cần lưu ý rằng toàn bộ các đánh giá này đều do chính Anthropic thực hiện, theo thông tin từ MacRumors. Kết quả từ bên thứ ba độc lập vẫn cần được chờ đợi để có cái nhìn khách quan hơn.

Ba tính năng mới: Dynamic Workflows, Effort Control và Messages API

Song song với việc nâng cấp mô hình, Anthropic bổ sung ba tính năng mới vào hệ sinh thái sản phẩm:

Dynamic Workflows (Research Preview): Cho phép Claude Code lập kế hoạch làm việc rồi chạy song song hàng trăm sub-agent trong một phiên, phục vụ các tác vụ quy mô lớn như di chuyển codebase hàng chục nghìn dòng. Tính năng này chỉ dành cho gói Enterprise, Team và Max của Claude Code — không áp dụng cho người dùng cá nhân thông thường.

Effort Control: Tích hợp trên Claude.ai và Cowork, cho phép người dùng điều chỉnh mức độ "nỗ lực" mà Claude bỏ ra cho mỗi phản hồi. Cài đặt thấp hơn đồng nghĩa phản hồi nhanh hơn và tiêu tốn ít rate limit hơn. Mặc định của Opus 4.8 là mức high, mà Anthropic cho là cân bằng tối ưu giữa chất lượng và trải nghiệm.

Messages API: Cho phép nhà phát triển chèn system entry vào giữa mảng messages, từ đó cập nhật chỉ dẫn cho Claude ngay trong quá trình thực thi tác vụ — hữu ích cho các pipeline phức tạp cần điều chỉnh linh hoạt.

Giá không đổi — và "Mythos" sắp ra mắt rộng rãi

Mức giá sử dụng thông thường của Opus 4.8 giữ nguyên so với Opus 4.7. Chỉ riêng fast mode mới có mức giá bằng 1/3 thế hệ trước. Đây là tín hiệu tích cực: người dùng API và Claude.ai hiện tại được hưởng lợi từ chất lượng cao hơn mà không cần trả thêm chi phí.

Anthropic cũng tiết lộ đang phát triển hai hướng song song: mô hình có năng lực tương đương Opus 4.8 nhưng chi phí thấp hơn, và một lớp mô hình hoàn toàn mới vượt trội hơn Opus về trí tuệ.

Về mô hình Claude Mythos — hiện đang được thử nghiệm tại một số tổ chức hạn chế — Anthropic cho biết đang hoàn thiện các biện pháp an toàn và dự kiến triển khai rộng rãi "trong vài tuần tới". Đây là kỳ vọng của Anthropic, chưa phải lịch trình chính thức, nên cần theo dõi thêm thông báo chính thức.

Đối với người dùng và doanh nghiệp tại Việt Nam đang ứng dụng Claude vào các quy trình lập trình, phân tích dữ liệu hay tự động hóa công việc, Opus 4.8 là bản nâng cấp đáng chuyển đổi ngay — đặc biệt nếu đang sử dụng API hoặc các gói trả phí hiện tại, vì giá không thay đổi trong khi hiệu năng cải thiện rõ rệt. Những ai muốn trải nghiệm Dynamic Workflows cần kiểm tra xem tổ chức của mình có đang dùng gói Enterprise, Team hoặc Max hay không.

Nguồn

MacRumors — Anthropic Launches Claude Opus 4.8 With Gains in Coding and Honesty

Anthropic ra mắt Claude Opus 4.8: SWE-Bench Pro 69,2%, nhanh gấp 2,5 lần và rẻ hơn 3 lần

SWE-Bench Pro 69,2%: Vượt GPT-5.5 và Gemini 3.1 Pro, nhưng không phải toàn diện

Tỷ lệ bỏ sót lỗi code giảm xuống còn 1/4 — cải tiến về "tính trung thực"

Ba tính năng mới: Dynamic Workflows, Effort Control và Messages API

Giá không đổi — và "Mythos" sắp ra mắt rộng rãi

Nguồn

Bài viết liên quan

Claude Code thêm Auto Memory và Auto Dream: Học giữa các phiên, giảm phụ thuộc CLAUDE.md

Anthropic kêu gọi toàn cầu giảm tốc phát triển AI trước thềm IPO 2026

Trump ký sắc lệnh AI: Rút quyền truy cập mô hình từ 90 xuống 30 ngày, benchmark mật xác định "mô hình mục tiêu"

ChatGPT sắp đại tu thành "siêu ứng dụng": Tích hợp Canva, Booking.com, Spotify trong vài tuần tới