OpenAI đã phát hành dòng mô hình GPT-5.2, tự nhận là "mô hình mới mạnh nhất". Tuy nhiên, sau khi thử nghiệm với hệ thống đánh giá của riêng tôi, tôi đã phát hiện ra một số kết quả bất ngờ: trong một số trường hợp quan trọng, khả năng của GPT-5.2 đã bị suy giảm.
Bài viết này sẽ phân tích giới hạn thực tế của GPT-5.2 dựa trên các trường hợp sử dụng thực tế — nó thực sự mạnh hơn ở đâu và trong những tình huống nào nó có thể kém hơn các thế hệ trước.

Tôi duy trì một bài kiểm tra đặc biệt có tên SkateBench, dùng để đánh giá khả năng suy luận không gian ba chiều của các mô hình AI đối với các động tác trượt ván. Tôi cung cấp cho mô hình một mô tả về một hành động và xem liệu nó có thể xác định chính xác tên của kỹ thuật trượt ván đó hay không.
| Mô hình | Độ chính xác | Lượng Token trung bình tiêu thụ | Chi phí mỗi yêu cầu |
|---|---|---|---|
| GPT-5 Mặc định | 97% | ~600 tokens | ~$0.06 |
| GPT-5.2 Extra High | 79% | ~2000 tokens | ~$2.50 |
Đây là sự suy giảm hiệu suất khoảng 18%, đồng thời chi phí tăng gấp 5 lần.
Điều khó hiểu hơn nữa là khi tôi điều chỉnh cường độ suy luận:
Lý thuyết của tôi: GPT-5.2 có thể đã hy sinh khả năng hiểu không gian ba chiều khi tối ưu hóa khả năng suy luận không gian hai chiều (chẳng hạn như bài kiểm tra ARC-AGI). Điều này có thể có nghĩa là sự suy giảm trong một số trường hợp cụ thể (như mô hình hóa 3D, mô phỏng vật lý, phát triển trò chơi).
Mặc dù bị suy giảm trong suy luận không gian, GPT-5.2 vẫn thể hiện sự cải thiện đáng kể trên hầu hết các bài kiểm tra chuẩn phổ biến:
Tôi đã thực hiện một bài kiểm tra so sánh: sử dụng GPT-5.2, Claude Opus 4.5 và Composer để sửa đổi cùng một dự án, với các yêu cầu:
| Đặc điểm | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|
| Tuân thủ lệnh | ⭐⭐⭐⭐⭐ Thực hiện đúng yêu cầu | ⭐⭐⭐ Có xu hướng sáng tạo |
| Chất lượng mã | ⭐⭐⭐⭐ Có tính kỹ thuật | ⭐⭐⭐⭐⭐ Thanh lịch hơn |
| Tốc độ phản hồi | ⭐⭐ 4 phút/yêu cầu | ⭐⭐⭐⭐ 30 giây/yêu cầu |
| Khả năng gỡ lỗi | ⭐⭐⭐⭐ Khả năng tự sửa lỗi mạnh mẽ | ⭐⭐⭐⭐⭐ Chẩn đoán sâu sắc |
Chiến lược đề xuất:
Tôi đã yêu cầu GPT-5.2 tạo một bản Mock-up studio tạo ảnh (dựa trên dự án Next.js thuần túy).
✅ Sử dụng màu chuyển sắc tốt: Hồng phía trên bên trái + Xanh dương phía dưới bên phải (tất cả các mô hình AI hiện nay đều ưa chuộng phối màu này)
✅ Nền dạng lưới phổ biến: Họa tiết lưới mang lại cảm giác công nghệ cao
✅ Chuyển đổi hoạt ảnh mượt mà: Không tạo ra các hiệu ứng động quá phức tạp
So sánh với các mô hình khác:
| Mô hình | Đầu vào | Đầu ra | Thay đổi |
|---|---|---|---|
| GPT-5/5.1 | $1.25 | $10.00 | - |
| GPT-5.2 | $1.75 | $14.00 | ↑40% / ↑40% |
| GPT-5.2 Pro | $21.00 | $168.00 | ↑1580% / ↑1580% |
OpenAI cho biết: Do hiệu quả Token suy luận của 5.2 được cải thiện, tổng chi phí để đạt được cùng một mức chất lượng có thể thực sự thấp hơn.
Ví dụ trong bài kiểm tra SkateBench của tôi:
Nhưng nếu chỉ cần "đạt 80% độ chính xác":
Kiểm tra Needle-in-Haystack (256k tokens):
Kiểm tra 8 kim (khó hơn):
Nếu bạn đã từng sử dụng Gemini 2.0 Pro, bạn sẽ nhận thấy vấn đề "tự bịa đặt" nghiêm trọng trong một số trường hợp. Chuyển sang dòng GPT sẽ cảm nhận rõ rệt:
So với Claude Opus 4.5 (hoàn thành nhiệm vụ phức tạp trong 20-30 giây), đây là một bất lợi lớn.
Những khó khăn tôi gặp phải khi sử dụng trong Cursor:
✅ Cần tuân thủ lệnh tối đa: Quy trình tự động hóa phức tạp, đường ống xử lý dữ liệu
✅ Phân tích ngữ cảnh dài: Xem xét tài liệu pháp lý, tái cấu trúc cơ sở mã lớn
✅ Nhiệm vụ công việc tri thức: Tạo báo cáo nghiên cứu, phân tích kinh doanh
✅ Trường hợp sử dụng nhiều công cụ: Đảm bảo độ chính xác 98%+
❌ Cần phản hồi nhanh: Hội thoại thời gian thực, phát triển lặp đi lặp lại
❌ Suy luận không gian ba chiều: Mô hình hóa 3D, mô phỏng vật lý (cân nhắc sử dụng Gemini 2.0 Pro)
❌ Dự án nhạy cảm về ngân sách: Phiên bản Pro có chi phí cực kỳ cao
GPT-5.2 Instant = GPT-5.2 Thinking (suy luận được đặt thành None)
| Khía cạnh | GPT-5.2 | Claude Opus 4.5 |
|---|---|---|
| Thực thi lệnh | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
| Thẩm mỹ mã | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Tốc độ phản hồi | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Ngữ cảnh dài | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Kiểm soát ảo giác | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Khía cạnh | GPT-5.2 | Gemini 2.0 Pro |
|---|---|---|
| Suy luận 3D | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Tailwind CSS | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Tính chính xác về sự thật | ⭐⭐⭐⭐⭐ | ⭐⭐ |
| ARC-AGI | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ |
Nếu bạn là người dùng MasLogin, trong các trường hợp quản lý đa tài khoản, vận hành tự động, bạn có thể kết hợp GPT-5.2 như sau:
Kịch bản: Cần tạo bài viết khác nhau cho 50 tài khoản mạng xã hội.
Các bước thực hiện:
Kịch bản: Cần phân tích nhật ký khóa của nhiều tài khoản để tìm ra các mẫu rủi ro.
Các bước thực hiện:
Kịch bản: Nhiều tài khoản dịch vụ khách hàng cần duy trì tính nhất quán về ngôn ngữ.
Các bước thực hiện:
Chủ yếu là suy luận không gian ba chiều và các trường hợp cần phản hồi nhanh. Bài kiểm tra SkateBench của tôi cho thấy GPT-5 có độ chính xác 97% khi mô tả các động tác trượt ván, trong khi GPT-5.2 Extra High chỉ đạt 79%. Nếu công việc của bạn liên quan đến mô hình hóa 3D, mô phỏng vật lý hoặc phát triển trò chơi, bạn nên giữ GPT-5 làm phương án dự phòng.
Hiện tại, tính năng điểm cuối API tùy chỉnh của Cursor có những hạn chế - việc thiết lập nó sẽ ảnh hưởng đến việc sử dụng các mô hình khác. Chiến lược được đề xuất:
Trong bài kiểm tra Needle-in-Haystack với 256k tokens, GPT-5.2 đạt tỷ lệ thu hồi 98%, vượt xa Grok 4 (30%). Điều này có nghĩa là bạn có thể:
Đây là nhược điểm cố hữu của các mô hình suy luận. GPT-5.2 Pro ở chế độ Extra High có thể mất 30-50 phút để suy nghĩ, nhưng vẫn có một xác suất nhỏ đưa ra câu trả lời sai. Khuyến nghị:
Tổng quan