14.04.2024
Модель искусственного интеллекта научилась составлять слова из аудио- и видеозаписей младенцев
Лора Сандерс
Младенцы прекрасно усваивают язык. После того как младенца ознакомили с видами и словами, с которыми он сталкивается, модель искусственного интеллекта выучила его первые слова. Фото: Vera Livchak / Getty Images
Программа искусственного интеллекта оказалась гораздо менее милой, чем ребенок. Но, как и младенец, она учила свои первые слова, рассматривая предметы и слыша слова.
После того, как ей предоставили десятки часов видео с растущим малышом, изучающим свой мир, модель искусственного интеллекта смогла с большей частотой ассоциировать слова - мяч, кошка, машина и другие - с их изображениями, сообщают исследователи в журнале Science. По словам специалистов, этот подвиг искусственного интеллекта открывает окно в таинственные процессы запоминания слов человеком.
Согласно некоторым представлениям об изучении языка, люди рождаются со специальными знаниями, которые позволяют нам усваивать слова, говорит Эван Кидд, психолингвист из Австралийского национального университета в Канберре. По его словам, новое исследование - это «изящная демонстрация того, что младенцам, возможно, не обязательно нужно много встроенных специализированных когнитивных механизмов, чтобы начать процесс изучения слов».
Новая модель отличается простотой и небольшими размерами - отход от многих больших языковых моделей, или LLM, которые лежат в основе современных чат-ботов. Эти модели учатся говорить на основе огромных массивов данных. «Эти системы искусственного интеллекта, которые мы имеем сейчас, работают замечательно, но требуют астрономических объемов данных, иногда триллионов слов для обучения», - говорит специалист по вычислительной когнитивной технике Вай Кин Вонг из Нью-Йоркского университета.
Но люди учат слова не так. «Ребенок учит не весь интернет, как некоторые из этих LLM. Его учат родители тем, что преподают», - говорит Вонг. Вонг и его коллеги намеренно построили более реалистичную модель изучения языка, которая опирается лишь на небольшое количество данных. Вопрос в том, сможет ли модель выучить язык на таком количестве данных?
Чтобы сократить количество данных, поступающих из всего интернета, Вонг и его коллеги обучили программу искусственного интеллекта на реальном опыте настоящего ребенка, австралийского малыша по имени Сэм. Видеокамера, установленная на голове, записывала то, что Сэм видел, а также слова, которые он слышал, по мере того как он рос и учил английский язык с 6 месяцев до чуть более 2 лет.
Видео, снятое ребенком по имени Сэм (на нем надета камера, установленная на голове), послужило зрительным и звуковым материалом для программы искусственного интеллекта. Сегодня Сэм - счастливый подросток. Фото предоставлено отцом Сэма.
Программа искусственного интеллекта, которую исследователи назвали одной из разновидностей нейронных сетей, использовала около 60 часов записей, сделанных Сэмом, и соединила объекты на видео, снятых Сэмом, со словами, которые он слышал от воспитателей, когда смотрел на них. На основе этих данных, составляющих лишь около 1 процента времени бодрствования Сэма, модель «училась» тому, насколько тесно совпадают изображения и произносимые слова.
Поскольку этот процесс происходил периодически, модель смогла подобрать несколько ключевых слов. Вонг и его команда протестировали свою модель, подобно лабораторному тесту, используемому для определения того, какие слова знают младенцы. Исследователи давали модели слово - например, кроватка. Затем модель попросили найти картинку, на которой изображена кроватка, из группы четырех картинок. Модель находила правильный ответ примерно в 62 процентах случаев. Случайное угадывание дало бы правильный ответ лишь в 25 процентах случаев.
Чтобы проверить, насколько хорошо программа искусственного интеллекта усваивает слова из видео- и аудиоматериалов, исследователи использовали тест, подобный этому. Из каждого набора из четырех изображений модель должна была определить одно, содержащее определенный объект. В ходе многочисленных тестов с набором из 22 слов модель выбирала правильный объект более чем в 60 процентах случаев. Изображение: Wai Keen Vong
«Они показали, что если вы можете создавать ассоциации между языком, который вы слышите, и контекстом, то вы сможете продвинуться в изучении слов», - говорит Кидд. Конечно, полученные результаты не позволяют утверждать, что дети учат слова аналогичным образом, говорит он. «Вы должны рассматривать [результаты] как доказательство того, что это возможность того, как дети могут учить язык».
Модель допустила несколько ошибок. Сложным оказалось слово «рука». Большинство учебных изображений, в которых фигурировала рука, были сделаны на пляже, и модель запуталась в словах «рука» и «песок».
Дети тоже путаются в новых словах. По словам Кидда, распространенной ошибкой является излишнее обобщение: например, все взрослые мужчины называются «папой». «Было бы интересно узнать, совершает ли модель те ошибки, которые совершают дети, потому что тогда вы знаете, что она на правильном пути», - говорит он.
С глаголами тоже могут возникнуть проблемы, особенно для системы ИИ, у которой не имеется тела. Вонг говорит, что, например, визуальные образы бега в наборе данных получены от бегущего Сэма. «С точки зрения камеры, он просто сильно трясется вверх-вниз».
Сейчас исследователи добавляют в свою модель еще больше аудио- и видеоданных. «Необходимо приложить больше усилий, чтобы понять, что делает человека таким эффективным в изучении языка», - говорит Вонг.
Источник: www.sciencenews.org
Эксперты нашего журнала «Наука и техника» увидели в этом исследовании перспективу эффективной редукции в работе самого ИИ, который может научиться многому не благадоря обработки сверхмассива данных, а благодаря усовершенствованию генеративных алгоритмов.
Информация о последних событиях и достижениях в области науки, техники и
технологий. При использовании материала необходима гиперссылка на ресурс
© 2023 Наука и техника