Kaggle Benchmarks — nền tảng đã thu hút hơn 10.000 bài đánh giá AI từ cộng đồng toàn cầu — chính thức bước ra khỏi trình duyệt và đến với môi trường phát triển quen thuộc của lập trình viên. Google vừa công bố trên blog Kaggle rằng các nhà phát triển nay có thể tạo, kiểm thử và chạy bài đánh giá mô hình AI trực tiếp từ VSCode, Cursor hay Antigravity thông qua AI coding agent, không cần chuyển sang trình soạn thảo notebook trên web.

Toàn bộ quy trình tạo benchmark gói gọn trong editor cục bộ

Với bản cập nhật này, sự kết hợp giữa Kaggle CLI và AI coding agent cho phép lập trình viên thực hiện trọn vẹn chu trình "tạo — kiểm thử — đẩy lên — chạy — tải về" ngay trên máy. Trước đây, mọi thao tác đều phải diễn ra trong trình notebook trên trình duyệt của Kaggle, gây ra điểm gián đoạn trong luồng làm việc của các kỹ sư đã quen với IDE.

Các môi trường được Google xác nhận tương thích bao gồm Antigravity, VSCode, Cursor cùng nhiều AI coding agent phổ biến khác. Đáng chú ý, kể từ khi ra mắt, Kaggle Benchmarks đã ghi nhận hơn 10.000 test case được cộng đồng đóng góp — con số cho thấy nhu cầu tự xây dựng bộ đánh giá riêng đang tăng nhanh trong giới phát triển AI.

Skill "write-kaggle-benchmarks": Mô tả bằng lời, agent lo phần còn lại

Điểm nhấn lớn nhất của lần mở rộng này là khả năng tạo benchmark chỉ bằng câu lệnh ngôn ngữ tự nhiên gửi cho AI coding agent. Cơ chế đứng sau là một skill mới có tên write-kaggle-benchmarks, được Google công bố cùng đợt phát hành. Skill này cung cấp cho agent bộ hướng dẫn cấu trúc về cách sử dụng SDK kaggle-benchmarks và Kaggle CLI để dựng một task hoàn chỉnh.

Quy trình sử dụng gồm ba bước đơn giản:

  • Yêu cầu agent cài skill bằng câu lệnh: "Install the write-kaggle-benchmarks skill: https://github.com/Kaggle/kaggle-skills"
  • Sau khi skill được nạp, mô tả bằng tiếng tự nhiên nội dung muốn đánh giá — ví dụ: "Tạo task hỏi mô hình 300+140=460 is correct?"
  • Agent tự sinh ra task chạy được trên hạ tầng Kaggle

Nhờ vậy, lập trình viên chỉ cần tập trung diễn đạt rõ ràng yêu cầu đánh giá, còn các chi tiết về template, API hay schema dữ liệu đều do agent xử lý. Google đã đăng video giới thiệu trên YouTube tại địa chỉ youtube.com/watch?v=c7B8vyehyUA.

Vì sao Google đặt cược vào "đánh giá do cộng đồng tạo"

Theo lý giải của Google, AI hiện đã vượt xa định nghĩa chatbot truyền thống và chuyển sang vai trò "reasoning agent" — có thể viết code, sử dụng công cụ và giải quyết vấn đề phức tạp. Trong bối cảnh đó, các benchmark cố định kiểu cũ không còn đủ sức phản ánh năng lực thực tế của mô hình.

Google nhấn mạnh quan điểm: "Khi một năng lực có thể đo lường được, các phòng lab AI sẽ lao vào cuộc đua cải thiện năng lực đó." Do đó, hãng muốn tạo điều kiện để chính người dùng thực tế — chứ không phải các nhóm nghiên cứu khép kín — xây dựng những bộ đánh giá khắt khe, đa dạng và sát thực tiễn.

Ý nghĩa với cộng đồng lập trình viên Việt Nam

Đối với các kỹ sư AI và team sản phẩm tại Việt Nam đang sử dụng VSCode hay Cursor làm môi trường chính, việc xóa bỏ bước chuyển ngữ cảnh sang trình duyệt là cải thiện đáng kể về năng suất. Mỗi ý tưởng đánh giá nảy ra trong quá trình code có thể được hiện thực hóa ngay, thay vì bị bỏ quên vì rào cản thao tác.

Quan trọng hơn, mô hình "mô tả yêu cầu thay vì viết code" mở rộng cánh cửa cho các chuyên gia ngành dọc — pháp lý, y tế, giáo dục, chăm sóc khách hàng — vốn không thông thạo SDK nhưng lại nắm rõ tiêu chí đánh giá nghiệp vụ. Tại Việt Nam, nơi nhiều startup AI đang xây dựng sản phẩm cho thị trường ngân hàng, fintech (MoMo, ZaloPay) hay thương mại điện tử (Shopee, Lazada, Tiki), khả năng nhanh chóng dựng bộ đánh giá riêng cho từng tình huống nghiệp vụ là lợi thế cạnh tranh rõ rệt.

Bước đi hợp lý cho các đội kỹ thuật muốn thử nghiệm: cài write-kaggle-benchmarks skill vào agent đang dùng, tạo một test case đơn giản để cảm nhận luồng làm việc mới, sau đó cân nhắc tích hợp vào quy trình lựa chọn và fine-tune mô hình nội bộ.

Nguồn