
Tencent выпустила новую ИИ-модель с открытым исходным кодом HunyuanWorld-Voyager, которая позволяет генерировать 3D-видеоряд из одного исходного изображения.
Возможности HunyuanWorld-Voyager
Алгоритм HunyuanWorld-Voyager способен генерировать 2D-видеокадры, которые сохраняют пространственную согласованность, как если бы камера перемещалась в реальном 3D-пространстве.
- Генерирует видео в формате RGB и информацию о глубине (RGB-D) для 3D-реконструкции.
- Создаёт 49 кадров, или примерно две секунды видео, с возможностью объединения в последовательности продолжительностью «несколько минут».
- Объекты сохраняют своё положение при перемещении камеры вокруг них, перспектива изменяется корректно.
Принцип работы
HunyuanWorld-Voyager работает на основе одного исходного изображения и заданной пользователем траектории камеры.
- Система объединяет данные об изображении и глубине с другими данными для формирования видеоряда.
- Пользователь может задать движение камеры вперёд, назад, влево, вправо или поворот.
Ограничения и перспективы
Основным ограничением HunyuanWorld-Voyager является то, что она в основном имитирует паттерны, найденные в данных для обучения.
- Для обучения HunyuanWorld-Voyager исследователи задействовали более 100 тыс. видеоклипов.
- Система использует «глобальный кэш» — растущую коллекцию точечных 3D-моделей, созданных из ранее сгенерированных кадров.
Применение и доступность
HunyuanWorld-Voyager развивает идеи более ранней ИИ-модели Tencent HunyuanWorld1.0.
- Для обеспечения работоспособности HunyuanWorld-Voyager требуются значительные вычислительные мощности.
- Получить доступ к исходному коду ИИ-модели и сопутствующей документации можно на портале Hugging Face.
В дальнейшем HunyuanWorld-Voyager может быть использована в различных областях, таких как создание виртуальных миров, архитектурная визуализация и другие.





