Инженеры раскрыли тайну, как ИИ принимает решения

- 29 Марта 20:49
- Вениамин Ветролесов
Компания Anthropic решила выяснить, как на тонком уровне работает механизм слоёв и токенов у больших языковых моделей. Слои — это части, образующие целое: нейроны объединены вместе, поэтому нейросеть может обрабатывать сразу несколько задач и обобщать информацию, тем самым выдавая комплексный ответ. А токены — это отдельные слова или части изображения, которые помогают искусственному интеллекту более эффективно обрабатывать запрос, разбивая его на несколько частей.
В совокупности эти элементы составляют «чёрный ящик» нейросети, помогая ей принимать решения. И хотя мы понимаем архитектуру ИИ, до сих пор мы не знали точно, по какому принципу нейросеть принимает конкретное решение и почему выбирает определённый ответ. Поэтому инженеры воспользовались трассировкой цепей, которая позволяет отслеживать процессы принятия решений у ИИ шаг за шагом.

В качестве подопытного образца была выбрана большая языковая модель компании Claude 3.5 Haiku. Фактически, исследователи просканировали нейросеть точно так же, как нейробиологи сканируют головной мозг в МРТ. Эта техника позволила увидеть, какие компоненты искусственного интеллекта активны в конкретные промежутки времени.
Оказалось, что нейросети очень причудливо устроены: так, чтобы сгенерировать уместный ответ, Haiku использовал нелинейные и комплексные стратегии, включающие множество промежуточных шагов. Например, при генерации стихов ИИ заранее планирует структуру стихотворения, подбирая слова с учётом того, каким должен получиться конечный результат.
Самыми загадочными оказались «галлюцинации», которые генерирует любая нейросеть, когда перегружается и начинает выдавать недостоверную и даже вымышленную информацию. Выяснилось, что такие искажения возникают, когда отдельные внутренние цепи нейросети начинают доминировать над остальными, тем самым подавляя слои, отвечающие за достоверность информации. Фактически, этот процесс похож на опьянение у человека, который начинает выдумывать вымышленные истории на ходу, игнорируя факты.