Ollama tăng tốc rõ rệt trên Mac Apple Silicon nhờ framework MLX của Ap

Ollama, ứng dụng phổ biến để chạy các mô hình AI ngay trên máy tính, vừa phát hành một bản cập nhật tận dụng khung máy học của Apple là MLX. Kết quả là tốc độ được tăng mạnh trên các máy Mac dùng Apple silicon.

Theo Ollama, phiên bản mới xử lý prompt nhanh hơn khoảng 1,6 lần ở tốc độ prefill và gần như tăng gấp đôi tốc độ tạo phản hồi ở tốc độ decode. Các máy Mac dùng chip dòng M5 được cho là hưởng lợi nhiều nhất, nhờ các GPU Neural Accelerators mới của Apple.

Bản cập nhật này cũng đi kèm khả năng quản lý bộ nhớ thông minh hơn, giúp các công cụ lập trình và chatbot AI phản hồi rõ rệt nhanh hơn trong quá trình dùng lâu.

Ollama cho biết cú hích hiệu năng mới này đặc biệt có ích cho người dùng macOS chạy các trợ lý cá nhân như OpenClaw hoặc các agent lập trình như Claude Code, OpenCode hay Codex.

Bản phát hành thử nghiệm hiện đã có thể tải xuống dưới dạng Ollama 0.19 - chỉ cần nhớ rằng bạn phải dùng một chiếc Mac có hơn 32GB bộ nhớ hợp nhất để chạy được. Hiện hỗ trợ mới chỉ giới hạn ở Qwen3.5 của Alibaba, nhưng Ollama cho biết sẽ sớm bổ sung thêm nhiều mô hình AI khác.

Ollama tăng tốc rõ rệt trên Mac Apple Silicon nhờ framework MLX của Apple

Bạn có thể quan tâm