OpenAI giới thiệu mô hình o1, một mô hình có thể tự kiểm chứng sự thật

Tiến trình LAI Á Âu

Wednesday, April 16 2025

Nhà sản xuất ChatGPT OpenAI đã công bố sản phẩm mới tiêu biểu tiếp theo của mình: Một mô hình AI sinh sáng được mã hóa tựa tiêu biểu là Dâu, chính thức được gọi là OpenAI o1.

Để chính xác hơn, o1 thực tế là một họ mô hình. Hai trong số chúng đã có sẵn vào Thứ Năm trong ChatGPT và thông qua API của OpenAI: o1-xem trước và o1-mini, một mô hình nhỏ hơn, hiệu quả hơn dành cho việc sinh mã.

Bạn sẽ cần đăng ký ChatGPT Plus hoặc Team để xem o1 trong ứng dụng ChatGPT. Người dùng doanh nghiệp và giáo dục sẽ có quyền truy cập vào tuần tới.

Lưu ý rằng trải nghiệm chatbot o1 hiện tại khá đơn giản. Khác với GPT-4o, tổ tiên của o1, o1 không thể duyệt web hoặc phân tích các tệp ngay. Mô hình có tính năng phân tích hình ảnh, nhưng chúng đã bị vô hiệu hóa đến khi thêm kiểm tra bổ sung. Và o1 bị giới hạn tốc độ; giới hạn hàng tuần hiện tại là 30 tin nhắn cho o1-xem trước và 50 cho o1-mini.

Một điểm tiêu cực khác, o1 rất đắt đỏ. Rất đắt. Trên API, o1-xem trước là $15 cho 1 triệu mã thông tin đầu vào và $60 cho 1 triệu mã thông tin đầu ra. Đó là 3 lần giá so với GPT-4o cho đầu vào và 4 lần giá cho đầu ra. (Token là các phần tử dữ liệu gốc; 1 triệu tương đương với khoảng 750.000 từ.)

OpenAI nói rằng họ dự định mang o1-mini đến tất cả người dùng miễn phí của ChatGPT nhưng chưa cố định ngày phát hành. Chúng tôi sẽ giữ công ty đúng lời hứa.

Dòng lý giải

OpenAI o1 tránh được một số điểm yếu lý do mà thông thường làm trượt mô hình AI sinh sáng vì nó có thể kiểm chứng sự thật hiệu quả bằng cách dành nhiều thời gian xem xét tất cả các phần của một câu hỏi. Điều làm cho o1 "cảm thấy" khác biệt về mặt chất lượng so với các mô hình AI sinh sáng khác là khả năng của nó "suy nghĩ" trước khi trả lời câu hỏi, theo OpenAI.

Khi được thêm thời gian để "suy nghĩ", o1 có thể lý luận qua một nhiệm vụ toàn diện — lập kế hoạch trước và thực hiện một chuỗi hành động trong một khoảng thời gian kéo dài mà giúp mô hình đến được một câu trả lời. Điều này khiến o1 phù hợp cho các nhiệm vụ yêu cầu tổng hợp kết quả của nhiều công việc phụ, như phát hiện email đặc quyền trong hộp thư của một luật sư hoặc ý tưởng chiến lược tiếp thị sản phẩm.

Trong một loạt bài viết trên X vào Thứ Năm, Noam Brown, một nhà nghiên cứu tại OpenAI, cho biết rằng “o1 được huấn luyện với học tăng cường.” Điều này dạy hệ thống “suy nghĩ” trước khi trả lời thông qua một chuỗi suy nghĩ riêng tư” qua các điểm thưởng khi o1 đưa ra câu trả lời đúng và phạt khi nó không.

Brown cũng cho biết rằng OpenAI đã sử dụng một thuật toán tối ưu mới và bộ dữ liệu huấn luyện chứa “dữ liệu lý giải” và tài liệu khoa học được thiết kế đặc biệt cho các nhiệm vụ lý giải. “Càng [o1] suy nghĩ lâu, càng tốt nó thực hiện,” ông nói.

TechCrunch không được mời kiểm tra o1 trước khi ra mắt; chúng tôi sẽ tiếp cận nó càng sớm càng tốt. Nhưng theo người đã trải nghiệm — Pablo Arredondo, Phó Chủ tịch tại Thomson Reuters — o1 tốt hơn các mô hình trước của OpenAI (vd: GPT-4o) trong việc phân tích biên bản pháp lý và xác định giải pháp cho các vấn đề trong trò chơi logic LSAT.

“Chúng tôi thấy nó xử lý nhiều phân tích cụ thể, đa mặt hơn,” Arredondo chia sẻ với TechCrunch. “Kiểm tra tự động của chúng tôi cũng cho thấy sự tiến bộ ở một loạt các nhiệm vụ đơn giản.”

Trong một bài kiểm tra sàng lọc cho Cuộc thi Toán quốc tế (IMO), một cuộc thi toán trung học, o1 giải đúng 83% bài toán trong khi GPT-4o chỉ giải được 13%, theo OpenAI. (Điều đó không ấn tượng lắm khi bạn xem xét rằng AI mới nhất của Google DeepMind đã đạt huy chương bạc trong một phiên thi tương đương với cuộc thi thực sự của IMO.) OpenAI cũng nói rằng o1 đạt vị thứ 89 trong số các thí sinh — tốt hơn cả hệ thống cờ đại của DeepMind AlphaCode 2, nếu muốn biết — trong các vòng bài lập trình trực tuyến được biết đến là Codeforces.

Phổ biến, o1 nên hoạt động tốt hơn trong các vấn đề về phân tích dữ liệu, khoa học và lập trình, OpenAI nói. (GitHub, đã thử nghiệm o1 với trợ lý lập trình AI của mình GitHub Copilot, báo cáo rằng mô hình tài năng trong việc tối ưu hóa thuật toán và mã ứng dụng.) Và, ít nhất là theo đánh giá của OpenAI, o1 cải thiện hơn so với GPT-4o về kỹ năng đa ngôn ngữ của mình, đặc biệt trong các ngôn ngữ như tiếng Ả Rập và tiếng Hàn.

Ethan Mollick, một giảng viên quản trị tại Wharton, viết nhận xét của mình về o1 sau khi sử dụng nó trong một tháng trong một bài viết trên blog cá nhân của mình. Trên một trò chơi từ vựng khó, o1 làm tốt, ông nói — đưa ra đúng tất cả câu trả lời (mặc dù o1 đã tưởng tượng ra một gợi ý mới).

OpenAI o1 không hoàn hảo

Bây giờ, có nhược điểm.

OpenAI o1 có thể chậm hơn so với các mô hình khác, phụ thuộc vào câu hỏi. Arredondo nói rằng o1 có thể mất hơn 10 giây để trả lời một số câu hỏi; nó cho thấy tiến triển bằng cách hiển thị nhãn cho công việc phụ hiện tại nó đang thực hiện.

Với tính không thể dự đoán của các mô hình AI sinh sáng, o1 có khả năng có những sai lầm và hạn chế khác. Brown thừa nhận rằng o1 thỉnh thoảng gặp trục trặc trong các trò chơi caro, ví dụ. Và trong một bài báo kỹ thuật, OpenAI nói rằng họ đã nghe thấy phản hồi chí lý từ những người thử nghiệm rằng o1 thường tưởng tượng (tức là tự tin tạo ra thông tin) nhiều hơn GPT-4o — và hiếm khi thừa nhận khi nó không có câu trả lời cho một câu hỏi.

“Các lỗi và sự tưởng tượng vẫn xảy ra [với o1],” Mollick viết trong bài viết của mình. “Nó vẫn chưa hoàn hảo.”

Chắc chắn rằng chúng ta sẽ học được nhiều điều hơn về những vấn đề khác nhau theo thời gian, và khi chúng ta có cơ hội đặt o1 qua các thử thách.

Cạnh tranh gay gắt

Chúng ta sẽ mất cơ hội nếu không chỉ ra rằng OpenAI không phải là nhà cung cấp AI duy nhất nghiên cứu các phương pháp lý giải như vậy để cải thiện tính chính xác của mô hình.

Các nhà nghiên cứu của Google DeepMind gần đây đã công bố một nghiên cứu cho thấy rằng bằng cách cung cấp cho các mô hình thêm thời gian tính toán và hướng dẫn để thực hiện các yêu cầu khi chúng được đưa ra, hiệu suất của các mô hình đó có thể được cải thiện đáng kể mà không cần bất kỳ điều chỉnh bổ sung nào.

Minh họa cho sự dữ dội của sự cạnh tranh, OpenAI cho biết rằng họ quyết định không hiển thị "chuỗi suy nghĩ" gốc của o1 trong ChatGPT một phần vì "ý thể cạnh tranh". (Thay vào đó, công ty chọn hiển thị "tóm tắt được tạo ra bởi mô hình" của các chuỗi.)

OpenAI có thể là người đi đầu với o1. Nhưng giả sử các đối thủ sớm sẽ theo sau với các mô hình tương tự, thử thách thực sự của công ty sẽ là làm cho o1 phổ biến hơn — và với giá rẻ hơn.

Từ đó, chúng ta sẽ thấy OpenAI có thể nhanh chóng cung cấp các phiên bản nâng cấp của o1. Công ty cho biết họ định thử nghiệm với các mô hình o1 lý giải suy nghĩ trong giờ, ngày hoặc thậm chí tuần để cải thiện khả năng lý giải của họ.

Tiến trình LAI Á Âu

OpenAI giới thiệu mô hình o1, một mô hình có thể tự kiểm chứng sự thật

Dòng lý giải

OpenAI o1 không hoàn hảo

Cạnh tranh gay gắt

Recent Posts

Seth Brown nổ rồi ghi bàn thắng cuối cùng, A's đánh bại Mariners 3-2 để giành chiến thắng giành 2 lần liên tiếp

Carry trade là gì và chúng đã đóng góp vào việc hỗn loạn thị trường toàn cầu trong tuần này như thế nào?

Bryce Harper, Trea Turner có những cú đánh lớn trong cuộc hồi sinh ở hiệp thứ 6, dẫn dắt Phillies vượt qua D-backs 6-4

Laurent Courtois của Montreal trở thành huấn luyện viên Major League Soccer đầu tiên bị sa thải trong mùa giải này

Việc sáp nhập xAI-X là một thỏa thuận tốt - nếu bạn đặt cược vào đế chế của Musk