Cайт веб-разработчика, программиста Ruby on Rails ESV Corp. Екатеринбург, Москва, Санкт-Петербург, Новосибирск, Первоуральск

Нейроинтеллект или миф?

Эра нейросетевого искусственного интеллекта в самом разгаре! Настоящий прорыв за последние годы — нейросети распознают не только речь, картинки с животными, сложные сцены, но даже описывают их словами! (NeuralTalk). На нейросетях делают боты, которые пока плохо, но уже что-то отвечают. Нейросети сочиняют музыку и пишут стихи. По сценарию нейросети даже собираются снять фильм! Скоро, пророчат журналисты, совсем скоро они буду управлять машинами, банками, корпорациями, странами. «И все будут летать на дилижансах» — так мечтали в начале прошлого века. Так мечтает сейчас о нейросетевом будущем его создатели. Говорят, что они скоро обгонят человека во всем. Нейросети уже обыграли человека в шахматы, го, в Jaopardy (Своя игра). И поэтому они называют свои творения не меньше, чем Искусственный интеллект. Распознал лошадь на картинке — искусственный интеллект. Почему интеллект? Потому что раньше это умел делать только человек. Странно, почему тогда ранее искусственным интеллектом не назвали калькулятор. Верно ли тогда так называть нейросети?

Конечно, нейросеть на порядки сложнее калькулятора. Но, если посмотреть на итог работы нейросети без предвосхищения интеллекта, это просто классификатор! Причем регрессивного характера — множество входов она сводит к выбору нескольких вариантов (кроме ассоциативных сетей и машины Больцмана). Реле, только с более сложным входом. Мне казалось, что интеллект — это как минимум способность рассуждать. И пока ни одна сеть не может построить хотя бы простейший силлогизм, называть ее интеллектом мягко говоря рановато. Я уж не говорю о более сложных задачах. Например,

У пчелы не многим больше нейронов в голове, но она умеет то, на что ни одна современная нейросеть пока не способна — летать с большой скоростью среди веток и деревьев. Пока Google с трудом, вспотев за 10 лет разработок, водит машины по дорожной разметке. А пчелы — это насекомое, самое начало эволюции нейросети. Мы не достигли даже этого начального уровня, а уже называем сети созданием, которым ознаменован венец эволюции нейросети — интеллектом.

Все, и сами ученые, совершают одну и ту же эпистемилогическую ошибку. Они говорят, что сеть обладает интеллектом, потому что распознала лошадь на картинке! Разве она распознала лошадь? Она просто выбрала выход Х, который исследователь назвал «лошадь». Да, она произвела обобщение (классификатор), сведя вариант лошади к выходу «лошадь». Но нейросеть никакого представления о том, что она выбрала, не имеет. У нее нет понятия о «лошади» (семантики), «значение» выхода «лошадь» у нас в голове, а не в сети. Чтобы он был в самой нейросети, она должна выбрать не вход, не слово соответственно распознанной картинке, а все контекстуально связанные слова, то есть весь концепт «лошади». Тогда она, может быть, будет понимать, что лошадь и туманность имеют общее значение только в смысле облака космической пыли. Для нейросети же выбранный выход — это смысловая «точка», не имеющая содержания.

Самое слабые достижения нейронных сетей как раз в NLP, там где требуется понимание естественного языка. Потому что мы до сих пор сами, как мне кажется, не очень понимаем, что значит «понимать». А в этом самый важный аспект, который мы хотели бы реализовать в машине. И который могли бы тогда по праву назвать интеллектом. Понимание именно в смысле семантики «лошади». При этом похоже мы приближаемся к порогу понимания того, что сами делаем — сети создают, обучают, но понять как они достигают результата уже не могут по признанию самих создателей. Хотя мы создали только первый кирпичик в здании Интеллекта. Сможем ли мы тогда достичь более серьезного уровня ИИ, который сложнее нынешнего на порядок?

 

Как итог комментариев приведу ответ ZhenyaZero, который очень точно выразил конкретное отличие современных нейросетей от того, как распознаем картинки мы, люди.

«Тем не менее вы, несомненно, отличите лошадь с пятой ногой от тигра с пятой ногой. И при описании картинки большинство людей скажет «лошадь с пятой ногой», а не „думаю это кусок торта“. А результаты нейросети на необычных и пограничных вариантах действительно плохо предсказуемы и часто выглядят полностью неадекватными.

Есть и ещё один момент, про который часто забывают. Искуственная нейросеть при обучении обрабатывает очень много картинок. Для того, чтобы в принципе отличать лошадь от табуретки, нужны как минимум десятки тысяч картинок лошадей. А чтобы снизить количество ошибок с 30-50% до долей процента — сотни миллионов». (мое примечание — чтобы увидеть столько разных лошадок ни одному человеку не хватит и всей жизни, сошлюсь на Пинкера и Хомски).

Дополню — ребенку часто достаточно показать один раз картинку нового животного и объяснить в чем его отличие, чтобы он смог узнавать таких животных в следующий раз и в любых позах. Даже в туманности «голова лошади», что просто не под силу нейросети. При этом мы можем подразумеваем «лошадь» даже когда видим просто уздечку. Как раз только что на Хабре появилась отличная статья об «успехах» нейросетей в языковом (смысловом) подражании habrahabr.ru/company/payonline/blog/307666, что еще раз подтверждает указанные в посте выводы. Приведу цитату:

«Есть только одна проблема, которая быстро становится очевидной по мере наблюдения за другими ответами системы. Когда Ли спросил: «Сколько ног у кошки?», система ответила: «Четыре, я полагаю». После этого он сделал другую попытку: «Сколько ног у сороконожки?». Ответ последовал любопытный: «Восемь». По сути, программа Ли не имеет понятия о чем она говорит. Она понимает, что определенные сочетания символов могут встречаться вместе, но не имеет ни малейшего понятия о существовании реального мира. Она не знает, как на самом деле выглядит сороконожка, или как она передвигается. То есть перед нами все еще только иллюзия интеллекта, лишенная того самого здравого смысла, который мы, люди, воспринимаем как нечто само собой разумеющееся. Подобная нестабильность результатов вполне обыденна для систем глубинного обучения. Программа Google, сочиняющая подписи к изображениям, делает странные ошибки. Глядя на дорожный знак, например, она может назвать его набитым едой холодильником».

geektimes.ru