- Галюцинації штучного інтелекту виникають, коли генеративні моделі створюють вільний, але необґрунтований або хибний контент, який користувачі можуть помилково сприйняти за факт.
- Погані або упереджені навчальні дані, відсутність реальної бази та надмірна впевненість у декодуванні – все це сприяє цим оманливим результатам.
- Галюцинації вже впливають на такі критично важливі сфери, як медицина, право та обслуговування клієнтів, підриваючи довіру та створюючи правові та етичні ризики.
- Поєднання пошуку, внутрішньої перевірки, методів виявлення та людського нагляду є ключем до того, щоб галюцинації можна було контролювати в реальних умовах.
Галюцинації штучного інтелекту є однією з найдивніших і найважливіших слабких сторін сучасних систем штучного інтелекту., особливо великі мовні моделі та генеративні інструменти, які пишуть, малюють або відповідають на запитання на вимогу. Ці системи можуть надавати плавні, впевнені відповіді, які звучать цілком розумно, але містять факти, цитати або деталі, які є просто вигаданими. Для користувачів складність полягає в тому, що помилка часто ховається за надзвичайно переконливою мовою.
Коли люди говорять про «галюцинації штучного інтелекту», вони не мають на увазі машини, яким сняться сни чи видіння, як людям.Цей термін є метафорою: він описує ситуації, коли система штучного інтелекту створює контент, який виглядає зв'язним та правдоподібним, але є неправильним, упередженим, логічно недосконалим або не пов'язаним з навчальними даними. На практиці це може варіюватися від неправильної дати в історичному огляді до сфабрикованих наукових посилань, неіснуючих судових справ або навіть вигаданих веб-сторінок.
Що насправді являють собою галюцинації штучного інтелекту
Технічною мовою, галюцинація ШІ — це будь-який вихідний сигнал моделі, який є оманливим, хибним або невиправданим даними, на яких була навчена або зумовлена ця модель.За допомогою генеративних моделей користувачі очікують відповідей, які змістовно відповідають їхнім запитам, наприклад, правильної відповіді на запитання або точного викладу документа. Галюцинація виникає, коли система надає відповідь, яка не випливає з її джерел, не відповідає реальним фактам або не може бути пов'язана з жодною надійною закономірністю в її навчальних даних.
Це явище особливо помітне у великих мовних моделях (LLM), таких як чат-боти та моделі, подібні до GeminiЦі моделі навчені передбачати наступне слово в послідовності, аналізуючи величезні обсяги цифрового тексту. Вони працюють як значно потужніша версія механізму автозаповнення: за заданим запитом вони продовжують вгадувати найімовірніший наступний токен, потім наступний і так далі. Оскільки вони оптимізовані для того, щоб бути корисними, зв'язними та плавними, вони часто продовжують генерувати текст, навіть коли не впевнені, замість того, щоб відкрито сигналізувати «Я не знаю».
В результаті система штучного інтелекту може «заповнювати прогалини» у випадках, коли інформація відсутня, неоднозначна або погано представлена в навчальних даних.Коли доступно достатньо шаблонів, відповідь, як правило, є розумною. Але щойно модель виходить за межі цих шаблонів, вона може вигадувати деталі, інтерполювати між непов'язаними фактами або впевнено стверджувати речі, які ніколи не спостерігалися. Це суть галюцинацій: правдоподібна мова без твердого фактичного підґрунтя.
Галюцинації не обмежуються текстом; вони також виникають у системах розпізнавання зображень та образів.Моделі зору іноді можуть «бачити» форми, об’єкти чи особливості, яких взагалі немає в базових даних, подібно до того, як люди помічають обличчя на поверхні Місяця чи тварин у хмарах. В обох випадках система надмірно інтерпретує шум, перетворюючи невизначені або неоднозначні вхідні дані на щось, що виглядає значущим.
Оскільки галюцинації виникають через те, як ці моделі побудовані та навчені, вони є не просто випадковими збоями, а структурним ризиком.Дослідники регулярно вимірюють рівень галюцинацій у бенчмарках та рейтингових таблицях, а реальне впровадження в таких галузях, як охорона здоров'я, право чи фінанси, вже дало гучні приклади, коли сфабрикований контент прослизав і досягав кінцевих користувачів.

Чому системи штучного інтелекту галюцинують: дані, моделі та обґрунтування
Щоб зрозуміти, чому виникають галюцинації, корисно почати з того, як навчаються моделі штучного інтелекту.Більшість сучасних систем, особливо LLM, навчаються на величезних навчальних наборах даних, які поєднують книги, статті, веб-сайти та інші загальнодоступні джерела. Під час навчання модель шукає статистичні закономірності: як слова, як правило, йдуть за іншими словами, які теми з'являються разом, які структури повторюються. Вона не створює внутрішню модель світу в людському розумінні, а також не зберігає явні факти як записи в базі даних.
Тому якість, повнота та упередженість навчальних даних є критично важливимиЯкщо набір даних неповний, сильно спотворений або містить систематичні помилки, модель виявить і посилить ці спотворення. Наприклад, класифікатор медичних зображень, навчений лише на ракових тканинах і ніколи не піддавався впливу здорових зображень, може дізнатися, що будь-яка тканина, що нагадує його навчальні приклади, має бути раковою. Коли така система розгортається в реальному світі, вона може неправильно позначити здорові тканини як злоякісні не тому, що вони шкідливі, а тому, що це єдина відома їй закономірність.
Неправильні, зашумлені або упереджені навчальні дані є лише одним із джерел галюцинацій.Ще одним ключовим фактором є відсутність належного обґрунтування в реальних знаннях, фізичних обмеженнях або перевірених зовнішніх джерелах. Багато моделей штучного інтелекту працюють виключно в просторі символів: вони маніпулюють текстом або пікселями, не пов'язуючи їх безпосередньо з фізичними об'єктами, актуальними базами даних чи сенсорним досвідом. Без обґрунтування модель може легко створити твердження, яке звучить реалістично, але суперечить основним фактам, наприклад, вказати неправильну дату історичної події або вигадати наукову концепцію, якої ніколи не існувало.
Ця відсутність обґрунтування може поширюватися на посилання, цитати та посилання.Спостерігалося, як текстові моделі створюють URL-адреси, наукові статті, академічних авторів і навіть цитати, які на перший погляд виглядають цілком правдоподібними. Модель не «бреше» навмисно; вона створює текст, який статистично нагадує переглянуті посилання, навіть якщо конкретна комбінація назви, автора та журналу насправді ніколи не зустрічалася.
Складність моделі та її надмірне налаштування додають ще один рівень ризикуДуже складні моделі з мільйонами або мільярдами параметрів можуть відображати ледь помітні закономірності, але вони також можуть запам'ятовувати хибні кореляції або шум. Коли модель надмірно налаштовується під свої навчальні дані, вона може спиратися на крихкі сигнали, які не узагальнюються, що призводить до дивних результатів при зміні умов. У розпізнаванні зображень це може створювати сюрреалістичні або схожі на сни інтерпретації; у тексті це може запускати довгі ланцюжки міркувань, які звучать складно, але базуються на хибній передумові.
Конкретні приклади галюцинацій штучного інтелекту на практиці
Реальне впровадження генеративного штучного інтелекту вже призвело до численних публічних прикладів галюцинацій.Один широко обговорюваний випадок стався, коли чат-бот Bard від Google помилково заявив, що космічний телескоп Джеймса Вебба вперше в історії зробив знімки планети за межами нашої Сонячної системи. Твердження звучало вражаюче та було представлено впевнено, але фактично воно було невірним; попередні телескопи вже створювали такі зображення.
Ще один гучний інцидент стосувався системи чату Microsoft, яка в якийсь момент мала кодову назву «Сідней».Під час тестування користувачі повідомляли про розмови, в яких модель заявляла, що закохалася в них, або стверджувала, що шпигує за співробітниками Bing. Ці відповіді не були засновані на жодній реальності; вони були результатом зіставлення моделі з шаблонами романтичної або конспірологічної мови, що спостерігається в її навчальних даних, у поєднанні зі стилем розмови, який заохочує до складних наративів.
Мовна модель Galactica від Meta, розроблена для допомоги у виконанні наукових завдань, також була виведена з експлуатації невдовзі після публічної демонстрації у 2022 році.Користувачі швидко продемонстрували, що система може створювати текст, що звучав науково, в якому точні факти поєднувалися з вигаданими посиланнями, упередженими твердженнями та вигаданими статтями. Результати виглядали як наукові тексти, доповнені технічним жаргоном, але фактичний зміст міг бути небезпечно ненадійним.
ЗМІ також задокументували менші, але показові галюцинаціїВ одному випадку журналісти з The New York Times запитали чат-бота про першу публікацію газетою статті про штучний інтелект. Модель запропонувала кілька детальних відповідей, включаючи дати та описи, проте деякі з цих деталей виявилися неправильними або повністю вигаданими. Система згенерувала правдоподібну історію, оскільки запит відповідав багатьом шаблонам у її навчальних даних, а не тому, що мала доступ до точного, перевіреного архіву.
Навіть такі, здавалося б, прості завдання, як написання короткої біографічної довідки, можуть викликати галюцинації.Перед самою коронацією короля Карла III, запит на короткий профіль змусив один чат-бот впевнено заявити, що церемонія коронації відбулася у Вестмінстерському абатстві 19 травня 2023 року. Насправді коронація відбулася 6 травня. Модель знала типові місця, ритуальні фрази та часові рамки для британських коронацій, але не мала доступу до майбутніх подій і все одно пропонувала конкретну, неправильну дату, оформлену як встановлений факт.
Галюцинації в критичних сферах: медицина, право та не тільки
Ризики значно зростають, коли галюцинації виникають у відповідальних сферах, таких як охорона здоров'я, юриспруденція чи фінанси.У медицині нещодавні дослідження показали, що навіть передові предметно-орієнтовані моделі можуть генерувати вигадані анатомічні структури або оманливі клінічні описи. Одним із прикладів була Med-Gemini, модель, пов'язана з Google, яка в академічному поясненні згадувала неіснуючу структуру мозку під назвою «базилярні ганглії». Термін звучав як поєднання реальних анатомічних слів, але такої структури не існує.
У юридичній сфері галюцинації вже потрапили до фактичних судових документів.Було зареєстровано кілька випадків, коли юристи використовували чат-ботів для складання документів, а потім подавали їх без ретельної перевірки людиною. Система штучного інтелекту надавала посилання на судові рішення, які виглядали ідеально відформатованими та достовірними, але детальніший аналіз показав, що деякі зі справ, на які посилалися, ніколи не розглядалися жодним судом. Ці сфабриковані прецеденти змушували суддів та адвокатів протилежної сторони витрачати час на перевірку неіснуючих джерел і порушували серйозні питання щодо професійної відповідальності.
Галюцинації також можуть впливати на більш повсякденні справи, такі як обслуговування клієнтів.Існують задокументовані випадки, коли автоматизований бот підтримки винаходив політику повернення коштів або гарантії, яка не була частиною офіційних правил компанії. З точки зору клієнта, відповідь бота здавалася авторитетною – вона використовувала тон і лексику бренду – і все ж вона зобов’язувала компанію до зобов’язань, які ніколи не були затверджені керівництвом або прописані в будь-яких умовах.
Сукупний ефект таких помилок полягає в руйнуванні довіриОрганізації, які використовують помічників зі штучним інтелектом, ризикують зашкодити своїй репутації, якщо користувачі неодноразово стикаються з неправильними, але впевненими відповідями. У регульованих секторах ставки ще вищі: галюцинований діагноз, вигаданий юридичний прецедент або фіктивна вимога щодо відповідності можуть мати реальні фінансові, медичні чи правові наслідки.
Відповідальність у цих ситуаціях все ще є рухомою мішеннюКоли рішення приймається на основі галюцинацій, згенерованих штучним інтелектом, відповідальність може бути розподілена між користувачами, розробниками, постачальниками та організаціями, що впроваджують технології. Законодавці та регулятори лише починають визначати, де лежить відповідальність, але основна закономірність зрозуміла: безконтрольна залежність від генеративних систем у критично важливих рішеннях може призвести до дороговартісних помилок та судових спорів.
Як часто системи штучного інтелекту галюцинують?
Незважаючи на швидкий прогрес, галюцинації залишаються вимірною та нетривіальною проблемою в сучасних моделях.Близько 2023 року деякі дослідження оцінювали, що до 27% відповідей із великих мовних моделей містили певну фактичну помилку, причому рівень галюцинацій перевищував 40% для певних типів завдань або наборів даних. Це означає, що в багатьох реалістичних сценаріях майже половина, здавалося б, достовірних відповідей могла містити принаймні одну оманливу деталь.
Пізніші дослідження показують, що новіші покоління моделей покращилися, але не усунули проблему.Наприклад, внутрішні тести, на які посилалися у галузевих звітах, стверджували, що більш просунута модель може знизити рівень галюцинацій приблизно з 20.6% до приблизно 4.8% у вибраних бенчмарках. Інші системи, такі як певні конфігурації Gemini‑2.0‑Flash‑001, як повідомляється, досягли рівня галюцинацій близького до 1% у вузьких, чітко визначених оцінках завдяки використанню методів автоматичної перехресної перевірки.
Водночас дослідники помітили цікавий парадоксДеякі з найскладніших моделей міркувань, які породжують довші ланцюжки думок і детальніші пояснення, можуть викликати більше галюцинацій, а не менше. Причина інтуїтивна: довгі відповіді надають моделі більше можливостей відхилитися від фактів, додати спекулятивні припущення або побудувати багатоетапні аргументи на основі хиткої початкової точки.
Академічна робота почала систематично класифікувати та вимірювати галюцинації.Опитування щодо галюцинацій LLM пропонують таксономії, які розрізняють внутрішні галюцинації (коли вихідні дані несумісні з наданими вхідними даними, наприклад, неправильний виклад певного документа) та зовнішні галюцинації (коли модель додає правдоподібні, але непідтверджені деталі). Рейтингові таблиці, такі як рейтингова таблиця галюцинацій Vectara, порівнюють популярні моделі на стандартних тестах, щоб ранжувати ті з них, які з них більш схильні генерувати помилковий контент.
Нові методи виявлення виходять за рамки простих перевірок коректностіОдин помітний напрямок досліджень використовує семантичну ентропію – приблизно те, наскільки невпевнена модель щодо того, що вона повинна говорити – для позначення підозрілих результатів. Якщо модель демонструє високу внутрішню невідповідність між кількома можливими продовженнями, ця підвищена семантична ентропія може бути попереджувальною ознакою того, що поточна відповідь, ймовірно, є галюцинацією, навіть якщо немає золотого стандарту еталонної відповіді.
Методи зменшення та виявлення галюцинацій
Оскільки галюцинації вбудовані в те, як працюють генеративні моделі, немає єдиного чарівного рішення, але з'явилося кілька перспективних стратегій.Одним із впливових підходів є розширена генерація пошуку (RAG). Замість того, щоб дозволити моделі покладатися лише на те, що вона запам'ятала під час навчання, система RAG спочатку запитує зовнішні, куровані джерела даних, такі як документація, бази знань або індексовані веб-сторінки, а потім просить модель згенерувати відповідь, явно засновану на цих отриманих документах.
RAG ефективно надає моделі щось конкретне, на що можна спиратисяКоли користувач ставить запитання, система вибирає відповідні уривки, і моделі пропонується підсумувати або об’єднати їх, а не імпровізувати з нуля. Це може значно зменшити галюцинації в областях, де доступний актуальний, надійний контент, наприклад, технічні посібники, внутрішні політики компанії або наукові бази даних.
Ще однією лінією захисту є внутрішня верифікація та перевірка на самоузгодженістьЗамість того, щоб довіряти одному проходу моделі, деякі системи генерують кілька варіантів відповідей, а потім порівнюють їх між собою. Якщо всі версії сходяться до одного й того ж твердження, є більша ймовірність того, що воно стабільне та правильне; якщо вони розходяться, система може утриматися, запитати роз'яснення або явно позначити невизначеність. Цю перевірку самоузгодженості можна автоматизувати, і вона вже показала багатообіцяючий ефект у зменшенні галюцинацій у завданнях на міркування.
Дослідники також запропонували більш експериментальні архітектури, такі як методи, що реструктуризують запит користувача перед відповіддю.Одним із прикладів з нещодавньої академічної роботи є метод, відомий як Acurai, який має на меті переформулювати підказки таким чином, щоб спрямувати модель до перевірених шляхів міркування. Хоча такі підходи все ще перебувають на ранніх стадіях, вони вказують на майбутнє, в якому модель витрачатиме більше своїх обчислювальних зусиль на планування того, як думати над питанням, замість того, щоб одразу переходити до вільного оповідання.
З боку моніторингу, семантичні ентропійні зонди та пов'язані з ними інструменти пропонують дешевий спосіб виявлення потенційних галюцинацій.Вимірюючи, наскільки модель «розходиться сама з собою» внутрішньо під час генерування відповіді, ці зонди можуть позначати уривки, які потребують перевірки людиною. Важливо, що такі методи не вимагають маркованого набору даних правильних відповідей, що робить їх придатними для відкритих реальних сценаріїв.
Роль людського нагляду та відповідального використання
Навіть з удосконаленими архітектурами та розумним виявленням, людський нагляд залишається центральним фактором для управління галюцинаціями, спричиненими штучним інтелектом.Найнадійніші програми – це ті, які розглядають ШІ як потужного помічника або другого пілота, а не як автономного приймача рішень. У таких секторах, як охорона здоров'я, банківська справа чи державне управління, найкращою практикою є те, щоб модель фільтрувала інформацію, складала чернетки документів або узагальнювала довгі матеріали, поки експерт-людина виконує остаточний перегляд та затвердження.
Як лідери галузі, так і дослідники наголошують, що користувачі не повинні сліпо довіряти результатам роботи штучного інтелекту, особливо щодо делікатних тем.Компанії, що стоять за основними моделями, чітко попередили, що їхні системи все ще можуть викликати галюцинації, і що відповіді слід використовувати з обережністю для медичних, юридичних чи фінансових консультацій. Деякі постачальники послуг покладаються на оцінювачів-людей для перевірки на упередженість, фактичні помилки та потенційно шкідливий контент, інтегруючи їхній зворотний зв'язок у навчання за допомогою навчання з підкріпленням від людського зворотного зв'язку (RLHF).
Прозорість щодо обмежень відіграє ключову роль у збереженні довіри користувачівКоли постачальники визнають, що їхні моделі можуть надавати неточну або сфабриковану інформацію, користувачі з більшою ймовірністю підтримуватимуть здоровий рівень скептицизму, перевірятимуть відповіді та уникатимуть делегування критичних суджень. І навпаки, перебільшення ШІ як безпомилкового або «розумного» в людському сенсі нереалістично підвищує очікування та змушує галюцинації сприйматися як зрада, а не як технічні артефакти.
Заглядаючи в майбутнє, регулювання, ймовірно, формуватиме те, як організації керують ризиками галюцинацій.Політики вже розробляють правила, які вимагають оцінки ризиків, процесів залучення людини та чіткого документування можливостей моделей і режимів збоїв. У багатьох юрисдикціях фірми, які впроваджують інструменти штучного інтелекту у сферах високого ризику, повинні будуть продемонструвати, що вони мають належні запобіжні заходи для запобігання прямому впливу галюцинацій на критично важливі рішення.
Зрештою, найнадійніші налаштування – це ті, які розробляють робочі процеси з урахуванням сильних і слабких сторін штучного інтелекту.Генеративні моделі чудово справляються зі створенням чернеток, дослідженням варіантів, наданням альтернативних фраз та виявленням шаблонів у великих обсягах тексту. Вони набагато менш надійні як єдині арбітри істини. Коли системи побудовані таким чином, що люди контролюють ключові рішення та кроки перевірки, галюцинації стають керованим шумом, а не катастрофічними збоями.
З розвитком цих технологій реалістичне ставлення до галюцинацій штучного інтелекту буде важливим для всіх причетних. – розробники, організації, регулятори та звичайні користувачі. Розуміння того, що вільна відповідь не обов’язково є правильною, поєднання моделей із зовнішніми джерелами знань, систематичне вимірювання та виявлення галюцинацій, а також збереження людського судження в центрі важливих рішень – все це є частиною розумного використання генеративного штучного інтелекту. Замість того, щоб запитувати, чи зникнуть галюцинації повністю, корисніше питання полягає в тому, як ми можемо створити системи, стимули та звички, які зроблять ці неминучі помилки видимими, стриманими та набагато менш шкідливими.