Chuyển tới nội dung chính

Claude Sonnet 5: Mô hình agent mặc định mới cho Claude Code

· 10 phút để đọc
Claude Dev
Claude Dev

Anthropic đã phát hành Claude Sonnet 5 vào ngày 30 tháng 6 năm 2026, định vị nó là mô hình Sonnet agentic nhất từ trước đến nay và là mô hình mặc định mới cho người dùng Claude Free và Pro.

Thông điệp rất rõ: Sonnet 5 đưa nhiều loại agentic work gần đây vốn cần mô hình Opus-class xuống một tầng rẻ hơn, nhanh hơn và phổ biến hơn. Nó có thể lập kế hoạch, dùng browser và terminal, xử lý tác vụ coding dài, và mặc định chạy với adaptive thinking.

Với người dùng Claude Code, Sonnet 5 quan trọng hơn một lần refresh mô hình thông thường. Nó nhiều khả năng trở thành execution layer mặc định của nhiều đội ngũ: không phải mô hình mạnh nhất Anthropic có, nhưng là mô hình developer sẽ gọi thường xuyên nhất.

Việc nâng cấp không hoàn toàn trơn tru. Sonnet 5 có tokenizer mới, thay đổi hành vi API quanh thinking và sampling parameters, cyber safeguards thời gian thực, và câu chuyện giá rẻ hơn Opus nhưng không phải lúc nào cũng rẻ hơn theo từng task.

Anthropic đã phát hành gì

Bài ra mắt của Anthropic mô tả Sonnet 5 là nâng cấp lớn so với Sonnet 4.6 về reasoning, tool use, coding và knowledge work. Công ty nói nó thu hẹp khoảng cách với Opus 4.8 trong khi vẫn có giá thấp hơn.

Các chi tiết vận hành quan trọng:

  • Model ID: claude-sonnet-5.
  • Khả dụng: mặc định cho Free và Pro, có trên Max, Team, Enterprise, Claude Code và Claude Platform.
  • Context window: 1M tokens theo mặc định và cũng là mức tối đa.
  • Max output: 128k tokens trên synchronous Messages API.
  • Giá: launch pricing là 2 USD cho mỗi triệu input tokens và 10 USD cho mỗi triệu output tokens đến 31 tháng 8 năm 2026. Sau đó giá chuẩn là 3/15 USD.
  • Adaptive thinking: bật mặc định cho Claude Code và API.
  • Cyber safeguards: real-time cybersecurity safeguards bật mặc định, lần đầu tiên áp dụng cho một mô hình Sonnet-tier.

Định vị thực tế là: Sonnet 5 không cố thay thế Fable hay Mythos. Nó cố biến agentic work thành chuyện thường ngày.

Feedback tích cực: Nó hoàn thành nhiều việc hơn

Phản hồi tích cực mạnh nhất nhất quán giữa lời chứng thực đối tác chính thức và thử nghiệm media ban đầu: Sonnet 5 giỏi hoàn thành công việc nhiều bước hơn là chỉ trả lời prompt.

Các early access partners của Anthropic mô tả cải thiện ở sustained coding, debugging, tuân thủ conventions, brownfield code và hoàn tất pull request có kiểm thử. Mẫu hữu ích không phải "nó viết văn hay hơn". Mà là "nó tiếp tục làm, tự kiểm tra nhiều hơn, và đạt kết quả hoàn chỉnh với ít nudges hơn".

Thử nghiệm hands-on của TechRadar cũng có kết luận tương tự ngoài coding. Với chat thông thường, Sonnet 5 không khác biệt quá lớn so với các assistant cạnh tranh. Nhưng khi yêu cầu hoàn thành công việc như lập kế hoạch du lịch hoặc tạo household budget tracker, Claude có vẻ tổ chức đầu ra theo hướng hoàn tất task tốt hơn.

Điều đó quan trọng với Claude Code. Use case tốt nhất của Sonnet 5 không phải one-turn snippets, mà là workflow như:

  • điều tra bug, viết reproducing test, sửa và xác minh;
  • migrate một module trong khi giữ conventions của dự án;
  • đọc một codebase lộn xộn và tạo staged plan;
  • dùng terminal và browser tools để thu thập bằng chứng;
  • tạo artifact, chỉnh sửa, và giữ output nhất quán.

Đây là nơi Sonnet 5 nên vượt Sonnet 4.6 trong công việc developer hằng ngày.

Benchmarks: Mạnh hơn, nhưng vẫn chưa phải Opus

Các bài viết công khai lặp lại hai tín hiệu benchmark hữu ích.

TechRadar báo cáo điểm Terminal-bench 2.1 agentic coding của Anthropic là 80,5% cho Sonnet 5, so với 67% của Sonnet 4.6. ITPro báo cáo 63,2% trên SWE-bench Pro cho Sonnet 5, so với 58,1% cho Sonnet 4.6 và 69,2% cho Opus 4.8.

Hình dạng rất rõ:

  • Sonnet 5 là nâng cấp thực sự so với Sonnet 4.6.
  • Opus 4.8 vẫn mạnh hơn trên các coding task khó nhất.
  • Sonnet 5 có thể tiệm cận hoặc khớp Opus 4.8 trên một số task ở effort cao.
  • Giá trị chính là cost-performance flexibility, không phải absolute frontier quality.

Tài liệu của Anthropic cũng nhấn mạnh cost-performance curves ở nhiều effort levels trên BrowseComp và OSWorld-Verified. Điểm quan trọng không phải một con số leaderboard đơn lẻ, mà là đội ngũ giờ có thể chỉnh effort và cost trên Sonnet-class thay vì nhảy thẳng lên Opus.

Chi phí migration ẩn: Token đã thay đổi

Chi tiết triển khai lớn nhất là tokenizer mới.

Anthropic nói cùng một input text tạo ra khoảng 30% nhiều tokens hơn trên Sonnet 5 so với Sonnet 4.6, tùy nội dung. Điều này không đổi API shape, nhưng đổi budget.

Nó ảnh hưởng:

  • token counts trong logs;
  • prompt cache economics;
  • max output limits;
  • context-window planning;
  • ước tính chi phí cho prompt tương đương;
  • so sánh eval với Sonnet 4.6.

Vì vậy launch pricing không phải toàn bộ câu chuyện chi phí. Ngay cả khi giá chuẩn mỗi token vẫn là 3/15 USD, cùng một workload có thể dùng nhiều tokens hơn. Đội ngũ nên đếm lại prompts dưới Sonnet 5 trước khi giả định migration là cost-neutral.

Thay đổi API developer phải chú ý

Sonnet 5 chỉ là drop-in replacement nếu code của bạn tránh các setting deprecated hoặc unsupported.

Docs nêu ba thay đổi hành vi:

  1. Adaptive thinking bật mặc định. Request không có field thinking trên Sonnet 4.6 giờ chạy với adaptive thinking. Nếu cần tắt, truyền thinking: {type: "disabled"}.
  2. Manual extended thinking bị loại bỏ. thinking: {type: "enabled", budget_tokens: N} trả về lỗi 400. Dùng adaptive thinking với tham số effort.
  3. Sampling parameters không được chấp nhận. temperature, top_p, hoặc top_k không ở default sẽ trả về lỗi 400. Dùng system prompt instructions để điều hướng hành vi.

Với người dùng Claude Code, điều này nghĩa là wrappers cũ và custom agent harnesses cần được audit trước khi đổi model ID. Một model upgrade có thể thành production bug nếu client vẫn gửi stale parameters.

Safety feedback: Tốt hơn Sonnet 4.6, chưa bằng Opus

Anthropic nói Sonnet 5 có hallucination và sycophancy thấp hơn Sonnet 4.6, đồng thời tốt hơn ở agentic safety. Nó cũng dễ từ chối malicious requests hơn và kháng prompt-injection-style hijacking tốt hơn.

Nhưng công ty cũng nói Sonnet 5 vẫn có tỷ lệ misaligned behavior cao hơn Opus 4.8 và Claude Mythos Preview trên automated behavioral audit.

Câu chuyện cyber cũng cụ thể. Sonnet 5 không được deliberate training cho cybersecurity work. Nó có thể làm routine, non-harmful cyber tasks, nhưng trên dangerous cyber evaluations nó kém hơn nhiều so với Opus 4.8 và Mythos 5. Dù vậy, vì nó mạnh hơn Sonnet 4.6, Anthropic ra mắt với real-time cyber safeguards bật mặc định.

Với security teams, cách hiểu thực tế là:

  • dùng Sonnet 5 cho engineering thông thường và routine defensive work;
  • dự kiến refusals với prohibited hoặc high-risk cyber prompts;
  • dùng Opus 4.8, với quyền truy cập phù hợp, cho cybersecurity work cần reduced guardrails;
  • log stop_reason: "refusal" vì refusals có thể trả về HTTP 200 thành công.

Phản ứng bên ngoài: Câu chuyện nằm ở default model

Axios nhìn Sonnet 5 như một bước đưa agentic AI vào everyday work trong khi giữ risk profile thấp hơn Opus, Fable và Mythos. Đây là cách đọc đúng.

Sonnet 5 quan trọng vì nó đổi default. Nếu Free và Pro users, Claude Code users và platform developers đều nhận mô hình Sonnet agentic hơn, agent workflows không còn là premium edge case mà trở thành trải nghiệm Claude bình thường.

Rủi ro là người dùng có thể đánh giá quá cao autonomy. Hands-on review của TechRadar tích cực, nhưng vẫn nói cần human oversight cho quyết định, kiểm tra, booking, upload và final execution. Sonnet 5 tiến gần hơn tới finished work, nhưng không thay thế review.

Với site này, framing hữu ích rất đơn giản:

Sonnet 5 là mô hình nên thử đầu tiên cho everyday Claude Code automation, nhưng không phải mô hình để tin mù quáng.

Claude Code adoption checklist

1. Cập nhật model ID

Chuyển test workloads từ:

claude-sonnet-4-6

sang:

claude-sonnet-5

Làm trong branch hoặc staging environment trước. Đừng đổi default production nếu chưa replay evals.

2. Gỡ API parameters cũ

Tìm trong codebase:

  • temperature
  • top_p
  • top_k
  • thinking: {type: "enabled"}
  • budget_tokens

Gỡ non-default sampling parameters và migrate manual thinking controls sang adaptive thinking cộng effort.

3. Đếm lại tokens

Đừng dùng lại token budgets của Sonnet 4.6. Đếm lại largest prompts, cached prefixes và Claude Code sessions điển hình dưới Sonnet 5.

Đặc biệt chú ý:

  • large repo summaries;
  • generated plans;
  • logs dán vào prompt;
  • long tool results;
  • max output settings sát với expected output length.

4. Đặt effort rõ ràng

Policy an toàn nhất là để effort thành task-level decision:

  • medium cho routine edits và explanations;
  • high cho Claude Code tasks bình thường nơi correctness quan trọng;
  • xhigh cho debugging khó, migrations và agent runs dài.

Đừng coi high effort là chất lượng miễn phí. Nó thay đổi latency và token use.

5. Giữ Opus trong routing mix

Sonnet 5 nên trở thành default cho nhiều workflow, nhưng không phải tất cả.

Giữ Opus 4.8 cho:

  • high-risk refactors;
  • security-sensitive reviews;
  • ambiguous architecture decisions;
  • task mà missed edge case có chi phí cao;
  • final review của large Sonnet-generated changes.

Mẫu thực tế là Sonnet để execute, Opus để escalate.

Kết luận

Claude Sonnet 5 là bản phát hành lớn hơn vẻ ngoài vì nó đưa agentic behavior mạnh hơn vào tầng mô hình mà hầu hết đội ngũ sẽ dùng hằng ngày.

Nó không phải Claude model top-end mới. Nó là workhorse mặc định mới.

Với người dùng Claude Code, cách đúng là áp dụng có chủ đích:

  • benchmark với Sonnet 4.6 trên task thật;
  • retune token budgets cho tokenizer mới;
  • gỡ unsupported API parameters;
  • đo cost theo effort levels;
  • giữ Opus 4.8 cho escalation;
  • theo dõi cyber-safeguard refusals trong logs.

Nếu Sonnet 4.6 là baseline thực dụng trước đây và Opus 4.8 là power tool, thì Sonnet 5 là nỗ lực đưa nhiều sức mạnh đó trở lại everyday workflow. Đó là lý do nó cần migration cẩn thận thay vì đổi default mù quáng.

Nguồn đã xem