Anthropic ra mắt Claude Opus 4.8, cải thiện coding và độ trung thực

Anthropic hôm nay công bố ra mắt mô hình AI mới nhất của mình, Claude Opus 4.8. Anthropic cho biết mô hình này là một "người cộng tác hiệu quả hơn" với các cải tiến ở lập trình tác nhân, suy luận đa lĩnh vực, sử dụng máy tính theo kiểu tác nhân, công việc tri thức và phân tích tài chính theo kiểu tác nhân.

Những người thử nghiệm cho rằng Opus 4.8 "đáng tin cậy hơn và sắc bén hơn trong phán đoán" khi làm các tác vụ theo kiểu tác nhân, và mô hình này cũng cải thiện về độ trung thực.

Những người thử nghiệm sớm báo cáo rằng Opus 4.8 có xu hướng tự gắn cờ những điểm chưa chắc chắn về công việc của nó hơn và ít đưa ra những khẳng định không có cơ sở hơn. Điều này cũng được phản ánh trong các đánh giá của chúng tôi, cho thấy Opus 4.8 ít có khả năng hơn khoảng bốn lần so với phiên bản tiền nhiệm trong việc để lọt các lỗi trong đoạn mã mà nó viết mà không bị phát hiện.

Các đánh giá về sự phù hợp cho thấy mô hình này đạt mức cao mới ở các thước đo về những đặc tính thân thiện với xã hội như ủng hộ quyền tự chủ của người dùng và hành động vì lợi ích tốt nhất của người dùng. Tỷ lệ hành vi lệch chuẩn như lừa dối thấp hơn so với Opus 4.7 và tương tự Claude Mythos Preview.

Các benchmark của Anthropic cho thấy Opus 4.8 đạt 69,2% trên SWE-Bench Pro, vượt GPT-5.5 và Gemini 3.1 Pro trong bài test này cũng như một số benchmark khác, dù GPT-5.5 vẫn dẫn đầu ở benchmark lập trình trên terminal.

Chế độ nhanh của Opus 4.8 cũng chạy nhanh hơn 2,5 lần, và giờ đây rẻ hơn gấp ba lần so với các mô hình trước.

Cùng với Opus 4.8, Anthropic đang bổ sung các tính năng mới vào danh mục sản phẩm của mình.

Quy trình làm việc động (xem trước nghiên cứu) - Claude có thể hoàn thành những tác vụ lớn hơn trong Claude Code. Nó có thể lập kế hoạch công việc và chạy hàng trăm subagent song song trong một phiên. Nó cũng có thể hoàn tất các đợt di chuyển quy mô cả codebase trên hàng trăm nghìn dòng mã. Tính năng này có sẵn cho các gói Claude Code for Enterprise, Team và Max.
Kiểm soát mức độ nỗ lực - Trong Claude.ai và Cowork, người dùng có thể chọn mức độ nỗ lực mà Claude bỏ ra cho một phản hồi. Ở mức thấp hơn, Claude sẽ trả lời nhanh hơn và dùng hạn mức chậm hơn. Opus 4.8 mặc định ở mức nỗ lực cao, mà Anthropic nói là sự cân bằng tốt nhất giữa chất lượng và trải nghiệm người dùng.
Messages API - Messages API chấp nhận các mục hệ thống ngay bên trong mảng messages, nên nhà phát triển có thể cập nhật chỉ dẫn cho Claude giữa chừng tác vụ.

Claude Opus 4.8 hiện đã có mặt ở mọi nơi. Giá cho việc sử dụng thông thường không thay đổi so với Opus 4.7.

Anthropic đang phát triển các mô hình có cùng năng lực như Opus 4.8 nhưng với chi phí thấp hơn, và một lớp mô hình mới còn thông minh hơn cả Opus. Anthropic cho biết hãng đã và đang xây dựng các cơ chế bảo vệ cho mô hình Claude Mythos mà họ đang thử nghiệm với một số tổ chức nhỏ, và kỳ vọng có thể đưa các mô hình thuộc lớp Mythos đến với toàn bộ khách hàng "trong vài tuần tới."

Anthropic ra mắt Claude Opus 4.8, cải thiện coding và độ trung thực

Bạn có thể quan tâm