Книга Млечный Путь, 21 век, No 3(48), 2024 - Леонид Александрович Ашкинази
Шрифт:
Интервал:
Закладка:
***
ChatGPT - ерунда
Игнасио де Грегорио
Вам, вероятно, уже надоели информационные бюллетени по искусственному интеллекту, рассказывающие о том, как произошло то или иное. Этих информационных бюллетеней много, потому что говорить о событиях и вещах, которые уже произошли, легко, но предоставляемая ими ценность ограничена, а шумиха преувеличена.
Истинная природа ИИ
Всякий раз, когда в модели большого языка (LLM - Large Linguistic Model) происходит что-то не так, мы говорим, что модель "галлюцинирует". Это связано с тем, что, поскольку LLM являются стохастическими (псевдослучайными) генераторами слов, всегда существует ненулевая вероятность того, что модель выдаст что-то неожиданное. Это делается намеренно. Поскольку существует множество способов выразить одну и ту же мысль или чувство на естественном языке, мы обучаем наши модели моделировать неопределенность.
Для этого мы не заставляем ИИ выбирать точное слово для каждого нового разговора, а заставляем выводить распределение вероятностей по всему словарю. Другими словами, модель ранжирует известные ей слова (словарный запас) в зависимости от того, насколько они статистически обоснованы как продолжение входной последовательности.
Однако, как ни странно, мы не всегда выбираем наиболее вероятное слово. Фактически, мы случайным образом выбираем одно из слов из топ-k, поскольку все они, вероятно, являются разумными продолжениями (на изображении выше все 5 вариантов семантически действительны). Это делается для повышения творческих способностей модели, что иногда желательно и считается, что это повышает мастерство модели в языковом моделировании.
LLM включают гиперпараметр под названием "температура", который позволяет вам контролировать, насколько "креативной" вы хотите, чтобы модель была. Но всякий раз, когда модель ошибается в этом процессе и выдает какое-то диковинное утверждение, действительно ли она "галлюцинирует", как это делают люди?
Исследователи говорят, что это вопиюще неверно. Галлюцинация подразумевает неправильное восприятие мира, которое заставляет человека высказывать утверждения, не подкрепленные реальностью. Но вот в чем дело: LLM не способны воспринимать реальность. Они видят реальность через призму текста, что не позволяет им по-настоящему пережить ее.
Этот мыслительный процесс, вероятно, будет учитывать, что наш недавно обсуждавшийся "Платонический ИИ" также не совсем точен (или, по крайней мере, неполон), поскольку моделям не хватает перцептивной способности наблюдать реальность: он наблюдает созданное человеком представление реальности (текст и изображения), что не является самой реальностью.
Таким образом, хотя модели могут сближаться, они все равно должны быть наделены способностью воспринимать реальный мир. По этой причине называние этого "галлюцинацией" приносит больше вреда, чем пользы.
Но почему бы просто не назвать это ложью?
Понимание цели ChatGPT
Исследователи также заявляют: утверждение, что "ChatGPT лжет", искажает истинную природу программ LLM. Чтобы солгать, кто-то должен знать правду о чем-то и намеренно выбрать альтернативное неточное утверждение. Это НЕ то, что делает ChatGPT.
Фактически, команда утверждает, что модель не может различать правду и ложь потому не пытается сказать правду; это просто имитация человеческого языка. По этой причине "чушь" или распространение неточных утверждений без осознания их неточности - вот термин, который больше применим к LLM.
Но почему? Поскольку модель "говорит правду", ее точность зависит от правдивости ее обучающих данных. Модель не оценивает правдивость каждого слова и утверждения; скорее, она генерирует ответы, основанные на статистических закономерностях и вероятностях, независимо от их истинности или ложности.
Другими словами, для ChatGPT, если два поколения одинаково статистически достоверны, но одно истинно, а другое ложно, модели действительно все равно, какое из них будет выведено для пользователя, поскольку оба достигают цели разумной имитации человеческого языка.
Следовательно, даже если может показаться, что модель активно ищет правильный ответ, когда вы с ней общаетесь, на самом деле она извлекает решение из своих собственных основных знаний на основе предоставленной входной последовательности; она не ищет истину, она ищет наиболее статистически правдоподобное продолжение заданной последовательности.
Но есть ли способ сделать модели более точными?
В поисках истины
Если мы предположим, что рассуждение - это форма поиска в пространстве возможных решений до тех пор, пока не будет найдено правильное (то, что кажется общепринятой точкой зрения независимо от того, могут ли эффективно рассуждать), то сочетание LLM с поиском во время выполнения расширяет возможности рассуждения LLM и, таким образом, уменьшает неточности.
Однако в этом режиме модель по-прежнему не ищет истину, поскольку цель остается той же: имитация человеческой письменной речи. Тем не менее, возможно, есть способ неявно повысить достоверность. Это исследователи уже некоторое время изучают двумя способами: минимизацией энтропии и (в последнее время) точной настройкой во время тестирования.
∙ При минимизации энтропии модель имеет индуктивный уклон в сторону более низких энтропийных реакций. Другими словами, она генерирует множественные ответы и в качестве способа различения принимает гипотезу о том, что ответ с наименьшим возможным количеством предположений, то есть самый простой, является лучшим ответом, что некоторые из вас сочтут похожим на бритву Оккама.
Например, предположим, что у нас есть модель, которая должна решить, является ли животное собакой или нет. 1) Ответом с низкой энтропией будет: "Это собака, потому что она лает". 2) Ответом с высокой энтропией будет: "Это собака, потому что она лает с интенсивностью 80 дБ и под углом 87 градусов относительно меня".
Хотя оба ответа верны, первый из них лучше, потому что признак лая является достаточным условием, чтобы решить, что это собака.
Второй ответ, хотя и верен, но адаптирован к очень конкретному случаю лающей собаки, что может привести к тому, что модель будет думать, будто лающие животные с более низкой интенсивностью звука или под другим углом не являются собаками.
∙ В ходе тонкой настройки во время тестирования Джек Коул и Мохамед Осман активно ищут решение знаменитого теста ARC-AGI (самого сложного теста для LLM) путем тонкой настройки модели. Здесь модель, столкнувшись со сложной проблемой, генерирует для нее несколько решений, находит правильное и точно настраивает веса модели в режиме реального времени.
Это форма активного обучения, при которой модель способна адаптироваться к поставленной проблеме, то есть никогда не перестает учиться. Однако, по моему скромному мнению (я вполне могу ошибаться), хотя эти очень интересные возможности сочетания поиска и LLM, кажется, повышают точность модели, они все же не решают проблему. По сути, модель все еще ищет не истину, а наилучший,