Sora của OpenAI tạo ra một đoạn hoạt hình ngắn chỉ với vài câu chữ

Sau những thành công vang dội với ChatGPT thì mới đây, OpenAI lại khiến cho dân tình bàn tán sôi nổi với một ứng dụng vừa công bố của họ có tên Sora - mô hình AI có thể biến văn bản thành một đoạn video mà không cần bạn phải làm gì cả.

Vào khoảng thời gian này một năm trước, Stable Diffusion đã sớm ra mắt một công cụ chuyển văn bản thành hoạt hình và khắp cõi mạng hiện nay đang ngập tràn các sản phẩm hoạt hình do AI này tạo ra. Tuần này, OpenAI đã chứng minh công nghệ tạo hoạt hình đã tiến xa như thế nào trong 12 tháng qua với việc ra mắt mô hình Sora mới, có thể tạo hoạt hình theo phong cách CG (Computer Graphic) và quang học lên đến một phút dựa trên câu lệnh bằng văn bản.

OpenAI tạo ra một đoạn hoạt hình ngắn chỉ với vài câu chữ

Sora là một mô hình AI tổng quát sử dụng câu lệnh bằng văn bản và hình ảnh để tạo video và hình ảnh có thời lượng, tỉ lệ khung hình và độ phân giải khác nhau, có thể lên đến cả phút video độ phân giải cao. Mô hình này cũng có thể lấy một video hiện có và mở rộng nó hoặc điền vào các khung hình còn thiếu.

Theo OpenAI: "Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong câu lệnh mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực".

Sora được xây dựng trên các mẫu Dall-E và GPT trước đây. Nó mượn kỹ thuật ghi lại chú thích của Dall-E 3, trong đó mô hình này tạo ra các chú thích mang tính mô tả cao cho dữ liệu huấn luyện. Khi người dùng nhập câu lệnh có ngôn ngữ tương tự, mô hình sẽ biết cách sử dụng dữ liệu đào tạo tương ứng khi tạo hình ảnh mới hoặc trong trường hợp của Sora là video. Do đó, nhóm phát triển Sora cho biết: "Mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng trong video được tạo một cách trung thực hơn".

Theo OpenAI, Sora nổi bật nhờ tính chân thực ấn tượng và độ dài của video được tạo cũng như khả năng tuân thủ chặt chẽ câu lệnh của người dùng. Sora có thể làm điều này vì mô hình này lên kế hoạch cho các video của mình nhiều khung hình cùng một lúc, giúp nó có tầm nhìn xa hơn so với các chương trình trước đó và cho phép nó ghi nhớ các nhân vật và đối tượng trông như thế nào trong suốt thời lượng của video được tạo, ngay cả khi chúng tạm thời rời khỏi khung hình.

Tuy nhiên, Sora có thể gặp khó khăn trong việc mô phỏng chính xác vật lý trong những cảnh phức tạp hơn. OpenAI cũng cho biết mô hình này không có hiểu biết sâu sắc về nguyên nhân và kết quả, điều này có thể tạo ra những kết quả không mong muốn hoặc phi thực tế. Sora đôi khi trở nên bối rối về các chi tiết không gian đòi hỏi phối cảnh, chẳng hạn như hướng lên hoặc xuống, trái hoặc phải và có thể gặp sự cố với các mốc thời gian được mô tả bằng câu lệnh cụ thể.

OpenAI cho biết họ đang làm việc với các chuyên gia về thông tin sai lệch, nội dung thù hận và thành kiến để kiểm tra mô hình và xây dựng các công cụ nhằm phát hiện nội dung sai lệch, bao gồm cả "bộ phân loại phát hiện" sẽ cho biết liệu video có phải do Sora tạo hay không. OpenAI cho biết Sora sẽ có những hạn chế tương tự như phần mềm Dall-E, vốn không cho phép đưa ra câu lệnh mang tính kích động bạo lực, nội dung tình dục, hình ảnh thù địch, hình ảnh đại diện của người thật.

Sora hiện chỉ được cung cấp cho một số nhà sáng tạo và chuyên gia bảo mật chọn lọc nhằm kiểm tra các lỗ hổng bảo mật. OpenAI có kế hoạch sẽ cung cấp mô hình này cho người dùng trong tương lai.

Một số đoạn video do Sora tạo ra kèm theo câu lệnh:

Câu lệnh: "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors".

Câu lệnh: "A cartoon kangaroo disco dances".

Câu lệnh: "Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image"