Tencent представила ИИ-модель HunyuanWorld-Voyager для генерации 3D-миров

Tencent выпустила новую ИИ-модель с открытым исходным кодом HunyuanWorld-Voyager, которая позволяет генерировать 3D-видеоряд из одного исходного изображения.

Возможности HunyuanWorld-Voyager

Алгоритм HunyuanWorld-Voyager способен генерировать 2D-видеокадры, которые сохраняют пространственную согласованность, как если бы камера перемещалась в реальном 3D-пространстве.

Генерирует видео в формате RGB и информацию о глубине (RGB-D) для 3D-реконструкции.
Создаёт 49 кадров, или примерно две секунды видео, с возможностью объединения в последовательности продолжительностью «несколько минут».
Объекты сохраняют своё положение при перемещении камеры вокруг них, перспектива изменяется корректно.

Принцип работы

HunyuanWorld-Voyager работает на основе одного исходного изображения и заданной пользователем траектории камеры.

Система объединяет данные об изображении и глубине с другими данными для формирования видеоряда.
Пользователь может задать движение камеры вперёд, назад, влево, вправо или поворот.

Ограничения и перспективы

Основным ограничением HunyuanWorld-Voyager является то, что она в основном имитирует паттерны, найденные в данных для обучения.

Для обучения HunyuanWorld-Voyager исследователи задействовали более 100 тыс. видеоклипов.
Система использует «глобальный кэш» — растущую коллекцию точечных 3D-моделей, созданных из ранее сгенерированных кадров.

Применение и доступность

HunyuanWorld-Voyager развивает идеи более ранней ИИ-модели Tencent HunyuanWorld1.0.

Для обеспечения работоспособности HunyuanWorld-Voyager требуются значительные вычислительные мощности.
Получить доступ к исходному коду ИИ-модели и сопутствующей документации можно на портале Hugging Face.

В дальнейшем HunyuanWorld-Voyager может быть использована в различных областях, таких как создание виртуальных миров, архитектурная визуализация и другие.