Нейросеть научилась "додумывать" видео по одному кадру
Ученые из Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) при Массачусетском технологическом институте разработали алгоритм глубокого обучения, который умеет создавать собственные ролики и предсказывать будущее развитие событий, отталкиваясь от единственного кадра.
Как пишет Motherboard, инженеры CSAIL "скормили" нейросети около 2 миллионов видео общей продолжительностью более года, на котором была запечатлена обычная, повседневная жизнь людей. При этом алгоритм не знал заранее, как дальше будут развиваться события.
Отталкиваясь от этого набора данных, созданная исследователями "двухпотоковая архитектура" попыталась воссоздать движения человека исходя из того, что он видел ранее. Результатом ее усилий стал очень короткий (длительностью всего 1 секунду, или 32 кадра) ролик низкого качества.
На сгенерированном компьютером видео были изображены, например, пляжи, железнодорожные станции и лица новорожденных. Далее команда ученых обратилась за помощью к краудсорсинговому сервису Amazon Mechanical Turk с просьбой оценить качество ролика. На удивление, созданное алгоритмом видео показалось пользователям очень правдоподобным: его выбирали в 20% случаев как более правдоподобное.
А когда алгоритм применили к неподвижному, статическому изображению, новая разработка сумела "достаточно убедительно" анимировать движения некоторых объектов, пишет автор статьи Карл Вондрик. "Я мечтаю о машине, способной создать короткий фильм или телесериал, — сказал он, — Мы генерируем всего секунду видео, но по мере раздвижения масштабов она, возможно, сумеет создать несколько минут видео, за которые сможет рассказать последовательную историю. Мы не близки к этому, но я думаю, что мы делаем первый шаг".