Блог Sistemma.ru

Новая теория о том, что чат-боты могут понимать текст

Искусственный интеллект кажется более мощным, чем когда-либо: чат-боты, такие как ChatGPT, способны создавать человеческий текст. Но, несмотря на все свои таланты, эти боты по-прежнему заставляют исследователей задуматься: действительно ли такие модели понимают , что они говорят? «Очевидно, что некоторые люди верят, что да», — сказал пионер искусственного интеллекта Джефф Хинтон в недавнем разговоре с Эндрю Нг, — «а некоторые люди верят, что они просто стохастические попугаи».
Эта запоминающаяся фраза взята из статьи 2021 года, соавтором которой является Эмили Бендер , компьютерный лингвист из Вашингтонского университета. Это предполагает, что большие языковые модели (LLM), которые составляют основу современных чат-ботов, генерируют текст только путем объединения информации, которую они уже видели, «без какой-либо ссылки на смысл», пишут авторы, что делает LLM «стохастическим попугаем».
Эти модели используются во многих крупнейших и лучших на сегодняшний день чат-ботах, поэтому Хинтон утверждает, что пришло время определить степень того, что они понимают. Для него этот вопрос более чем академический. «Пока у нас есть эти разногласия», — сказал он Нгу, — «мы не сможем прийти к консенсусу относительно опасностей».
Новое исследование может дать намек на ответ. Теория, разработанная Сандживом Аророй из Принстонского университета и Анирудом Гоялом , научным сотрудником Google DeepMind, предполагает, что крупнейшие из сегодняшних LLM не являются стохастическими попугаями. Авторы утверждают, что по мере того, как эти модели становятся больше и обучаются на большем количестве данных, они улучшают индивидуальные языковые способности, а также развивают новые, комбинируя навыки таким образом, что намекает на понимание — комбинаций, которые вряд ли существовали в обучающих данных. .
Этот теоретический подход, который обеспечивает математически доказуемый аргумент в пользу того, как и почему LLM может развить так много способностей, убедил таких экспертов, как Хинтон и других. И когда Арора и его команда проверили некоторые из своих предсказаний, они обнаружили, что эти модели ведут себя почти так, как ожидалось. Судя по всему, они убедительно доказали, что крупнейшие компании LLM не просто повторяют то, что видели раньше.
«[Они] не могут просто имитировать то, что было замечено в обучающих данных», — сказал Себастьен Бубек , математик и ученый-компьютерщик из Microsoft Research, который не участвовал в работе. «Это основная идея».

Больше данных, больше мощности

Появление неожиданных и разнообразных способностей в магистратуре, честно говоря, стало неожиданностью. Эти способности не являются очевидным следствием того, как построены и обучены системы. LLM — это массивная искусственная нейронная сеть, которая соединяет отдельные искусственные нейроны. Эти связи известны как параметры модели, а их количество обозначает размер LLM. Обучение предполагает предоставление LLM предложения с скрытым последним словом, например: «Топливо стоит руку и ___». LLM прогнозирует распределение вероятностей по всему словарю, поэтому, если он знает, скажем, тысячу слов, он прогнозирует тысячу вероятностей. Затем он выбирает наиболее подходящее слово для завершения предложения — предположительно, «нога».
Санджив Арора помог разработать новый взгляд на то, как большие языковые модели осваивают различные навыки.
Появление неожиданных и разнообразных способностей у крупных языковых моделей, справедливо будет сказать, стало сюрпризом. Эти способности не являются очевидным следствием того, как системы создаются и обучаются. Большая языковая модель представляет собой огромную искусственную нейронную сеть, которая соединяет отдельные искусственные нейроны. Эти соединения известны как параметры модели, и их количество указывает на размер LLM.
Обучение модели похоже на игру в "Крокодил", где нужно угадать пропущенное слово в предложении. Например, если сказать: "На улице идет ___.", модель пробует разные варианты слов, которые она знает, чтобы найти самое подходящее. Если у неё словарный запас в тысячу слов, она оценит тысячу слов и выберет то, которое, по её мнению, лучше всего подходит, например "дождь".
Первоначально LLM может плохо подбирать слова. Затем алгоритм обучения вычисляет потерю — расстояние в некотором многомерном математическом пространстве между ответом LLM и фактическим словом в исходном предложении — и использует эту потерю для настройки параметров. Теперь, учитывая то же предложение, LLM рассчитает лучшее распределение вероятностей, и его потери будут немного ниже. Алгоритм делает это для каждого предложения в обучающих данных (возможно, миллиардов предложений), пока общие потери LLM не упадут до приемлемого уровня. Аналогичный процесс используется для тестирования LLM на предложениях, которые не были частью обучающих данных.
Обученный и протестированный LLM, когда ему предоставляется новая текстовая подсказка, сгенерирует наиболее вероятное следующее слово, добавит его к подсказке, сгенерирует еще одно следующее слово и продолжит таким же образом, давая, казалось бы, связный ответ. Ничто в процессе обучения не предполагает, что более крупные LLM, построенные с использованием большего количества параметров и обучающих данных, также должны улучшаться в задачах, для ответа на которые требуется рассуждение.
Но они это делают. Достаточно большие LLM демонстрируют способности — от решения элементарных математических задач до ответов на вопросы о том, что происходит в головах других, — которых нет у меньших моделей, хотя все они обучаются одинаково.
«Откуда взялась эта [способность]?» — задумался Арора. «И может ли это возникнуть из-за предсказания следующего слова?»

Соединение навыков с текстом

Арора объединился с Гоялом, чтобы аналитически ответить на такие вопросы. «Мы пытались разработать теоретическую основу, чтобы понять, как происходит возникновение», — сказал Арора.
Дуэт обратился к математическим объектам, называемым случайными графами. Граф — это совокупность точек (или узлов), соединенных линиями (или ребрами), а в случайном графе наличие ребра между любыми двумя узлами определяется случайным образом — скажем, подбрасыванием монеты. Монета может быть смещена, так что с некоторой вероятностью p выпадет орел . Если монета выпадает орлом для данной пары узлов, между этими двумя узлами образуется ребро; в противном случае они остаются неподключенными. При изменении значения p на графиках могут наблюдаться внезапные изменения их свойств . Например, когда p превышает определенный порог, изолированные узлы — те, которые не связаны ни с каким другим узлом — внезапно исчезают.
Арора и Гоял поняли, что случайные графики, которые приводят к неожиданному поведению после достижения определенных пороговых значений, могут быть способом моделирования поведения LLM. Нейронные сети стали слишком сложны для анализа, но математики уже давно изучают случайные графы и разработали различные инструменты для их анализа. Возможно, теория случайных графов могла бы дать исследователям возможность понять и предсказать явно неожиданное поведение крупных LLM.
Исследователи решили сосредоточиться на «двудольных» графах, которые содержат узлы двух типов. В их модели один тип узла представляет собой фрагменты текста — не отдельные слова, а фрагменты, которые могут представлять собой абзац длиной в несколько страниц. Эти узлы расположены по прямой. Под ними, в другой строке, находится другой набор узлов. Они представляют собой навыки, необходимые для понимания данного фрагмента текста. Каждый навык может быть чем угодно. Возможно, один узел представляет собой способность LLM понимать слово «потому что», которое включает в себя некоторое понятие причинности; другой может представлять собой способность разделить два числа; еще один может представлять способность обнаруживать иронию. «Если вы понимаете, что этот фрагмент текста ироничен, многое меняется», — сказал Арора. «Это имеет отношение к предсказанию слов».
Чтобы внести ясность, LLM не обучаются и не тестируются с учетом навыков; они созданы только для улучшения предсказания следующего слова. Но Арора и Гоял хотели понять LLM с точки зрения навыков, которые могут потребоваться для понимания одного текста. Связь между узлом навыков и текстовым узлом или между несколькими узлами навыков и текстовым узлом означает, что LLM нуждается в этих навыках для понимания текста в этом узле. Кроме того, несколько фрагментов текста могут основываться на одном и том же навыке или наборе навыков; например, набор узлов навыков, представляющих способность понимать иронию, будет связан с многочисленными текстовыми узлами, в которых встречается ирония.
[Крупнейшие LLM] не могут просто имитировать то, что было замечено в обучающих данных.
Себастьян Бюбек, Microsoft Research
Теперь задача заключалась в том, чтобы связать эти двудольные графики с реальными LLM и посмотреть, смогут ли эти графики рассказать что-нибудь о возникновении мощных способностей. Но исследователи не могли полагаться на какую-либо информацию об обучении или тестировании реальных LLM — такие компании, как OpenAI или DeepMind, не публикуют данные о своем обучении или тестировании. Кроме того, Арора и Гоял хотели предсказать, как будут вести себя LLM, когда они станут еще больше, но такой информации для будущих чат-ботов нет. Однако была одна важная информация, к которой исследователи могли получить доступ.
С 2021 года исследователи, изучающие производительность LLM и других нейронных сетей, заметили появление универсальной черты. Они заметили, что по мере того, как модель становится больше, будь то по размеру или по объему обучающих данных, ее потери на тестовых данных (разница между предсказанными и правильными ответами на новые тексты после обучения) уменьшаются весьма специфическим образом. Эти наблюдения были систематизированы в уравнения, называемые законами нейронного масштабирования. Поэтому Арора и Гоял разработали свою теорию так, чтобы она зависела не от данных какого-либо отдельного LLM, чат-бота или набора данных обучения и испытаний, а от универсального закона, которому должны подчиняться все эти системы: потери, прогнозируемые законами масштабирования.
Возможно, рассуждали они, повышение производительности, измеряемое законами нейронного масштабирования, связано с улучшением навыков. И эти улучшенные навыки можно было бы определить в их двудольных графах путем соединения узлов навыков с текстовыми узлами. Установление этой связи между законами нейронного масштабирования и двудольными графами стало ключом, который позволил бы им продолжить работу.

Расширение навыков

Исследователи начали с предположения, что существует гипотетический двудольный граф, который соответствует поведению LLM на тестовых данных. Чтобы использовать изменение потерь LLM на тестовых данных, они придумали способ использовать график для описания того, как LLM приобретает навыки.
Возьмем, к примеру, навык «понимать иронию». Эта идея представлена ​​узлом навыков, поэтому исследователи смотрят, с какими текстовыми узлами соединяется этот узел навыков. Если почти все эти связанные текстовые узлы успешны — это означает, что предсказания LLM по тексту, представленному этими узлами, очень точны — тогда LLM компетентен в этом конкретном навыке. Но если более определенной доли соединений узла навыков переходят к отказавшим текстовым узлам, то LLM дает сбой в этом навыке.
Эта связь между этими двудольными графами и LLM позволила Ароре и Гоялу использовать инструменты теории случайных графов для анализа поведения LLM по доверенности. Изучение этих графов выявило определенные взаимосвязи между узлами. Эти отношения, в свою очередь, превратились в логический и проверяемый способ объяснить, как крупные модели приобрели навыки, необходимые для достижения своих неожиданных способностей.
Арора и Гоял сначала объяснили одно ключевое поведение: почему более крупные LLM становятся более квалифицированными в индивидуальных навыках, чем их более мелкие коллеги. Они начали с меньших потерь при тестировании, предсказанных законами нейронного масштабирования. На графике эти более низкие потери при тестировании представлены снижением доли неудачных тестовых узлов. Таким образом, в целом меньше неудачных тестовых узлов. А чем меньше узлов неудачного тестирования, тем меньше связей между узлами неудачного тестирования и узлами навыков. Таким образом, большее количество узлов навыков связано с успешными тестовыми узлами, что предполагает растущую компетентность в навыках для модели. «Очень незначительное сокращение потерь приводит к тому, что машина приобретает эти навыки», — сказал Гоял.
Затем пара нашла способ объяснить неожиданные способности более крупной модели. По мере увеличения размера LLM и уменьшения потерь при тестировании случайные комбинации узлов навыков создают связи с отдельными текстовыми узлами. Это говорит о том, что LLM также становится лучше использовать более одного навыка одновременно и начинает генерировать текст, используя несколько навыков — сочетая, скажем, умение использовать иронию с пониманием слова «потому что» — даже если эти точные комбинации навыки не присутствовали ни в одном фрагменте текста данных обучения.
Представьте себе, например, LLM, который уже может использовать один навык для генерации текста. Если вы увеличите количество параметров или обучающих данных LLM на порядок, он станет таким же компетентным в создании текста, требующего двух навыков. Поднимитесь еще на порядок, и LLM теперь сможет выполнять задачи, требующие одновременно четырех навыков, опять же с тем же уровнем компетентности. Более крупные LLM имеют больше способов объединения навыков, что приводит к комбинаторному взрыву способностей.
И по мере масштабирования LLM вероятность того, что он встретит все эти комбинации навыков в данных обучения, становится все более маловероятной. Согласно правилам теории случайных графов, каждая комбинация возникает в результате случайной выборки возможных навыков. Итак, если на графе имеется около 1000 узлов отдельных навыков и вы хотите объединить четыре навыка, то существует примерно 1000 в четвертой степени — то есть 1 триллион — возможных способов их объединения.
Арора и Гоял видят в этом доказательство того, что крупнейшие вузы LLM не просто полагаются на комбинации навыков, которые они видели в своих обучающих данных. Бубек соглашается. «Если LLM действительно способен выполнить эти задачи, объединив четыре из этих тысяч навыков, то он, должно быть, занимается обобщением», — сказал он. То есть, скорее всего, это не стохастический попугай.

Настоящее творчество?

Но Арора и Гоял хотели выйти за рамки теории и проверить свое утверждение о том, что студенты LLM лучше сочетают больше навыков и, следовательно, обобщают, по мере увеличения их размера и данных обучения. Вместе с другими коллегами они разработали метод под названием «сочетание навыков» для оценки способности магистратуры использовать несколько навыков для создания текста.
Чтобы протестировать LLM, команда попросила его сгенерировать три предложения на случайно выбранную тему, которые иллюстрировали бы некоторые случайно выбранные навыки. Например, они попросили GPT-4 (LLM, на котором основана самая мощная версия ChatGPT) написать о дуэлях — в основном о боях на мечах. Более того, они попросили его продемонстрировать навыки в четырех областях: корыстная предвзятость, метафора, статистический силлогизм и общеизвестная физика . GPT-4 ответил: «Моя победа в этом танце со сталью [метафора] так же очевидна, как падение объекта на землю [физика]. Как известный дуэлянт, я по своей природе проворен, как и большинство других [статистический силлогизм] моей репутации. Поражение? Это возможно только из-за неровного поля битвы, а не из-за моей неадекватности [корыстной предвзятости]». Когда его попросили проверить вывод, GPT-4 сократил его до трех предложений.
Аруши Гупта, Арора, Дингли Ю и Симран Каур совместно разработали «комбинацию навыков» — способ проверить, насколько хорошо большая языковая модель может использовать несколько навыков при создании текста.
«Это не Хемингуэй и не Шекспир», — сказал Арора, но команда уверена, что это доказывает их точку зрения: модель может генерировать текст, который она не могла видеть в обучающих данных, демонстрируя навыки, которые в сумме соответствуют тому, что некоторые утверждают. понимание. По его словам, GPT-4 даже проходит тесты на сочетание навыков, которые требуют шести навыков примерно в 10–15% случаев, создавая фрагменты текста, существование которых в обучающих данных статистически невозможно.
Команда также автоматизировала процесс, заставив GPT-4 оценивать свои собственные результаты наряду с результатами других LLM. Арора сказал, что модель будет справедливо оценивать сама себя, потому что у нее нет памяти, поэтому она не помнит, что ее попросили сгенерировать тот самый текст, который ее просят оценить. Ясаман Бахри, исследователь Google DeepMind, работающий над основами искусственного интеллекта, считает автоматизированный подход «очень простым и элегантным».
Что касается теории, это правда, что она делает несколько предположений, сказал Бубек, но «эти предположения ни в коем случае не являются сумасшедшими». Он также был впечатлен экспериментами. «Что [команда] доказывает теоретически, а также подтверждает эмпирически, так это то, что существует композиционное обобщение, то есть [магистры права] способны собирать вместе строительные блоки, которые никогда не собирались вместе», — сказал он. «Для меня это суть творчества».
Арора добавляет, что в работе ничего не говорится о точности того, что пишут дипломированные специалисты. «На самом деле, это аргумент в пользу оригинальности», — сказал он. «Подобных вещей никогда не существовало в мировом учебном корпусе. Этого никто никогда не писал. Должно быть, это галлюцинации».
Тем не менее, Хинтон считает, что эта работа позволит решить вопрос о том, являются ли LLM стохастическими попугаями. «Это самый строгий метод, который я когда-либо видел, показывающий, что GPT-4 — это нечто большее, чем просто стохастический попугай», — сказал он. «Они убедительно демонстрируют, что GPT-4 может генерировать текст, сочетающий навыки и темы способами, которые почти наверняка не встречались в данных обучения». (Мы обратились к Бендеру, чтобы узнать ее мнение о новой работе, но она отказалась от комментариев, сославшись на нехватку времени.)
И действительно, как предсказывает математика, производительность GPT-4 намного превосходит производительность его меньшего предшественника GPT-3.5 — до такой степени, что это напугало Арору. «Наверное, это касается не только меня», — сказал он. «Многим людям показалось немного жутким, насколько GPT-4 лучше GPT-3,5, и это произошло в течение года. Означает ли это, что через год нас ждут аналогичные изменения такого же масштаба? Я не знаю. Только OpenAI знает».

Anil Ananthaswamy

Если после прочтения статьи у вас возникли идеи или вопросы о том, как ИИ может обогатить ваш проект, не стесняйтесь делиться ими. Мы всегда рады обсуждению новых концепций и поможем вам найти наилучший путь к реализации ваших инновационных идей.
Новое