OpenAI ra mắt mô hình AI toàn năng, miễn phí cho tất cả người dùng

Chia sẻ Facebook

Mô hình AI mới có thể tương tác bằng văn bản và “thị giác,” có nghĩa là nó có thể xem các ảnh, tài liệu hoặc biểu đồ do người dùng tải lên và thảo luận về chúng.

CTO OpenAI Mira Murati trong sự kiện ra mắt GPT-4o. Ảnh: OpenAI.

OpenAI vừa giới thiệu "bản cập nhật mùa xuân" cho mô hình GPT-4 với tên gọi GPT-4o với hàng loạt tính năng hàng đầu: có thể suy luận hình ảnh, âm thanh và văn bản theo thời gian thực. Giới chuyên gia đánh giá AI mới của công ty "giống con người một cách đáng ngạc nhiên".

Sau sự kiện ra mắt GPT-4o, CEO OpenAI Sam Altman đã đăng trên X với nội dung: Her. Ông dường như ám chỉ mô hình ngôn ngữ lớn mới nhất của mình đang tiệm cận với những gì diễn ra ở bộ phim này.

Phim Her ra mắt năm 2013, kể về Theodore - một nhà văn cô đơn, sống hướng nội, làm nghề viết thư tình cho những người gặp khó khăn. Trầm cảm và chán nản sau khi ly dị vợ, ông đã mua một chiếc máy tính với hệ điều hành AI có khả năng học hỏi, giao tiếp như con người bình thường.

Như nguyện vọng của Theodore, hệ điều hành này tự nhận mình là nữ và lấy tên Samantha (Scarlett Johansson lồng tiếng). Hai người nhanh chóng trở nên thân thiết đến nỗi Theodore mang Samantha bên mình mọi lúc mọi nơi, giao tiếp với nhau bằng tai nghe không dây gắn trong tai và một chiếc điện thoại thông minh. Từ tình bạn trở thành tình yêu, thậm chí cả tình dục.

GPT-4o đang có sức mạnh gần tương đương như vậy.

Tại sự kiện Spring Update, GPT-4o sẽ biến ChatGPT thành một trợ lý cá nhân kỹ thuật số có thể tham gia vào các cuộc trò chuyện thời gian thực bằng giọng nói. Mô hình AI mới có thể tương tác bằng văn bản và “thị giác,” có nghĩa là nó có thể xem các ảnh, tài liệu hoặc biểu đồ do người dùng tải lên và thảo luận về chúng.

Kỹ sư trưởng Mira Murati của OpenAI cho biết, GPT-4o cung cấp trí thông minh "tương đương GPT-4" nhưng nâng cao khả năng của GPT-4 trên nhiều phương thức và phương tiện truyền thông.

"GPT-4o suy luận xuyên suốt giọng nói, văn bản và hình ảnh", CTO Murati cho biết trong một buổi trình chiếu trực tuyến tại văn phòng OpenAI ở San Francisco. "Và điều này vô cùng quan trọng, bởi vì chúng ta đang nhìn về tương lai của sự tương tác giữa chúng ta và máy móc."

Trong khi GPT-4 Turbo, mô hình "tiên tiến nhất" trước đây của OpenAI, được đào tạo để có thể phân tích hình ảnh, văn bản để hoàn thành các nhiệm vụ như trích xuất văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó, GPT-4o còn có thể thêm cả giọng nói.

GPT-4o nâng cao đáng kể trải nghiệm trên trợ lý trò chuyện ChatGPT của OpenAI. Nền tảng này đã lâu nay có chế độ giọng nói chuyển văn bản thành giọng nói, nhưng GPT-4o tăng cường khả năng này, cho phép người dùng tương tác với ChatGPT giống như với một trợ lý thực sự.

Ví dụ, người dùng có thể hỏi ChatGPT được tăng cường bởi GPT-4o một câu hỏi và gián đoạn ChatGPT trong khi nó đang trả lời. OpenAI cho biết, GPT-4o cung cấp khả năng phản hồi "thời gian thực", và thậm chí có thể nhận ra những khác biệt nhỏ trong giọng nói của người dùng, để tạo ra các giọng nói khác nhau với "nhiều phong cách biểu cảm khác nhau" (bao gồm cả hát).

GPT-4o cũng nâng cấp khả năng xử lý hình ảnh của ChatGPT. Với một bức ảnh - hoặc màn hình máy tính - ChatGPT hiện có thể nhanh chóng trả lời các câu hỏi liên quan, từ các chủ đề như "Có gì đang diễn ra trong đoạn mã này?" đến "Nhãn hiệu áo sơ mi này là gì?".

Các tính năng này sẽ tiếp tục phát triển trong tương lai, Murati nói. Trong khi hiện tại GPT-4o có thể nhìn vào một bức ảnh menu bằng một ngôn ngữ khác và dịch nó, trong tương lai, mô hình có thể cho phép ChatGPT "xem" một trận đấu thể thao trực tiếp và giải thích luật chơi cho bạn.

OpenAI cũng khẳng định, GPT-4o sẽ hỗ trợ đa ngôn ngữ với hiệu suất nâng cao cho khoảng 50 ngôn ngữ. Và trên API của OpenAI và Azure OpenAI Service của Microsoft, GPT-4o nhanh gấp đôi, giá rẻ hơn một nửa và có giới hạn tỷ lệ cao hơn so với GPT-4 Turbo, công ty cho biết.

Murati cho biết, OpenAI sẽ ra mắt ứng dụng ChatGPT trên máy tính để bàn với các khả năng của GPT-4o, cung cấp cho người dùng một nền tảng khác để tương tác với công nghệ của công ty.

GPT-4o cũng sẽ có sẵn cho các nhà phát triển muốn xây dựng các chatbot tùy chỉnh của riêng mình từ cửa hàng GPT của OpenAI, một tính năng hiện cũng sẽ có sẵn cho người dùng không trả phí.

GPT-4o có sẵn trên gói miễn phí của ChatGPT từ hôm nay và cho người đăng ký gói ChatGPT Plus và Đội ngũ trả phí của OpenAI với giới hạn tin nhắn "cao gấp 5 lần". (OpenAI lưu ý rằng, ChatGPT sẽ tự động chuyển sang GPT-3.5, một mô hình cũ hơn và kém năng lực hơn, khi người dùng chạm đến giới hạn tỷ lệ.) Trải nghiệm ChatGPT giọng nói được nâng cấp nhờ GPT-4o sẽ ra mắt phiên bản alpha cho người dùng Plus trong tháng tới, cùng với các tùy chọn dành cho doanh nghiệp.

OpenAI cho biết, đã có hơn 100 triệu người đang sử dụng ChatGPT. Nhưng với trải nghiệm ChatGPT được cập nhật cùng với khả năng tương tác với công cụ này trên máy tính để bàn sẽ giúp công cụ này có thêm nhiều người dùng.

Minh Anh (T/h)