Theo OpenAI, GPT-5.4 được phát triển nhằm giảm các lỗi sai về mặt thực tế trong quá trình phản hồi. Mô hình này ít mắc lỗi trong các phản hồi riêng lẻ hơn 33% và giảm khoảng 18% sai sót tổng thể so với GPT-5.3 Instant, phiên bản vừa được giới thiệu trước đó.
Một thay đổi đáng chú ý là hệ thống kiểm tra an toàn mới giúp đánh giá “chuỗi suy nghĩ” của mô hình. Đây là phần lý giải trung gian trước khi AI đưa ra câu trả lời cuối cùng. Công cụ mới cho phép theo dõi và đánh giá chi tiết hơn quá trình suy luận của AI, qua đó tăng tính minh bạch và khả năng giám sát.
Về hiệu năng, OpenAI cho biết GPT-5.4 hoạt động nhanh hơn và tiết kiệm chi phí hơn so với các đối thủ cùng phân khúc. Mô hình đạt 75% trong các bài kiểm tra OSWorld-Verified và WebArena Verified. Trong bài đánh giá nội bộ GDPval dành cho các nhiệm vụ đòi hỏi kiến thức chuyên sâu, GPT-5.4 đạt 83%, mức cao nhất của OpenAI đến nay.
Trong bài kiểm tra MMMU-Pro, mô hình đạt 81,2%, nhỉnh hơn mức 80,5% của Gemini 3.1 Pro. Ngoài ra, kết quả đánh giá độc lập từ Mercor cho thấy GPT-5.4 đứng đầu thang điểm APEX-Agents, một hệ thống kiểm tra năng lực chuyên môn trong các lĩnh vực như luật và tài chính.
Theo CEO Mercor Brendan Foody, GPT-5.4 đặc biệt mạnh trong các nhiệm vụ có thời gian xử lý dài như xây dựng bản trình chiếu, lập mô hình tài chính hoặc phân tích pháp lý.
Ở mảng lập trình, thông qua OpenAI Codex, mô hình mới có khả năng tạo token nhanh hơn khoảng 1,5 lần so với trước mà không làm giảm chất lượng. GPT-5.4 cũng được tích hợp khả năng sử dụng máy tính, cho phép các tác nhân AI thực hiện những quy trình công việc phức tạp trên nhiều ứng dụng khác nhau.
OpenAI cung cấp GPT-5.4 dưới hai phiên bản chính là GPT-5.4 Thinking tập trung vào suy luận và GPT-5.4 Pro hướng đến hiệu năng cao. API của mô hình hỗ trợ cửa sổ ngữ cảnh lên tới một triệu token, lớn nhất trong các mô hình của OpenAI hiện nay.
Cùng với đó, công ty giới thiệu công cụ mới cho nhà phát triển mang tên Tool Search. Thay vì hiển thị toàn bộ định nghĩa công cụ khi gọi mô hình, hệ thống mới chỉ truy xuất những công cụ cần thiết, giúp giảm lượng token tiêu thụ và tăng tốc độ xử











