AI 환각(할루시네이션): 왜 모델은 옳게 들리고 틀리는가

60초 답변

AI 환각이란 언어 모델이 문법적으로 완벽하고 어조가 자신 있으며 사실적으로 잘못된 내용 — 조작된 인용, 존재하지 않는 판결, 가공의 약물, 조작된 통계, 거짓 인용문 — 을 만들어 내는 것입니다. 모델은 거짓말을 하고 있는 것이 아닙니다. 학습된 그대로 정확히 하고 있습니다. 가장 그럴듯하게 들리는 텍스트를 생성하고 있는 것입니다. 그럴듯함과 진실은 대부분의 경우 일치합니다. 그것들이 갈릴 때, 당신은 환각을 얻습니다.

환각이 위험한 것은 정확히, 모델의 출력에서 이 단락이 잘못되고 다른 단락이 옳다는 것을 알리는 어떤 것도 없기 때문입니다. 어조는 균일합니다. 따라서 환각을 잡는 것은 더 주의 깊게 읽는 문제가 아닙니다. 그것은 외부 점검 — 다른 경로로 같은 답변을 만들어 내는 두 번째 독립 추론자 — 을 요구합니다. 경로가 일치할 때, 공동 환각의 가능성은 급격히 떨어집니다. 경로가 갈릴 때, 행동하기 전에 검증할 가치가 있는 무언가가 있다는 플래그를 얻습니다.

형식적 정의

기술 문헌에서, AI 환각이란 근거 없는 출력 — 학습 데이터에 의해 뒷받침되지 않고, 입력에서 도출될 수 없으며, 실제 세계에 고정되지 않은 — 이지만 잘 근거 있는 출력과 같은 유창함과 자신감으로 만들어진 것입니다.

이는 때때로 같은 단어 아래 묶이는 세 가지 실패 모드와 구별됩니다.

오류는 모델이 명확하게 제기된 질문에 대해 입력의 잘못된 읽기에서 나오는 잘못된 답변을 할 때입니다. 모델은 데이터를 이해했습니다. 단지 잘못 계산했을 뿐입니다. 오류는 더 명확한 프롬프트로 재실행함으로써 잡을 수 있습니다.

지식의 격차는 모델이 정직하게 모를 때입니다. 예를 들어, 학습 컷오프 이후의 사건에 대해 질문받았을 때입니다. 잘 행동하는 응답은 "모르겠습니다"입니다. 잘못 보정된 응답은 추측하는 것입니다. 지식의 격차 하에서 추측하는 것은 환각처럼 보일 수 있지만, 구조적으로 다릅니다. 모델은 창작하도록 요청받았습니다.

사용자와의 불일치는 모델이 사용자가 좋아하지 않는 참된 답변을 만들어 내고, 사용자가 그것을 "잘못된" 것으로 라벨링할 때입니다. 이것은 기술적 의미에서 환각이 아닙니다.

본래의 환각은 모델이 자신이 말하는 것에 대한 실제 인식론적 근거가 없음에도 불구하고 다른 모든 것과 같은 권위로 말하는 경우입니다. 출력은 내부적으로 일관되고, 문법적으로 완벽하며, 근거 없음을 보여 주는 표면적 표시가 없습니다. 그것이 정의적 속성입니다.

이 용어 자체는 인간의 지각에서 빌려 왔습니다. 환각은 지각자가 생생하게 경험하지만 대응하는 현실이 없는 것입니다. 유추는 불완전합니다(모델은 "지각"하지 않습니다) 그러나 직관은 옮겨집니다. 사용자는 현실처럼 느껴지지만 그렇지 않은 것을 읽습니다.

왜 언어 모델은 환각하는가

환각을 어떻게 잡는지 이해하려면, 왜 그것이 일어나는지 이해해야 합니다. 메커니즘은 버그가 아닙니다. 그것은 학습이 최적화한 그대로 정확히 하고 있는 모델입니다.

현대의 대규모 언어 모델은 단일한 주요 목표 — 앞에 온 모든 것을 고려할 때 다음 단어를 예측하는 것 — 로 방대한 텍스트 코퍼스에서 학습됩니다. 그 목표는 그럴듯함 — 학습 데이터의 패턴에 맞는 출력 — 을 보상합니다. 진실을 직접 보상하지 않습니다. 학습 과정에는 "이 문장은 참이다", "이 문장은 거짓이다"라고 규모에서 모델에게 알려 줄 수 있는 신탁이 없습니다. 대신 가진 것은 "이 문장 패턴은 코퍼스에서 흔하다"입니다.

대부분의 질문에서, 그럴듯함과 진실은 정렬됩니다. 학습 코퍼스는 크고, 답은 잘 입증되어 있으며, 모델은 올바르게 보간합니다. 이것이 언어 모델이 많은 경우 유용한 이유입니다. 흥미로운 실패 모드는 그럴듯함과 진실이 갈릴 때 일어납니다.

이 발산은 네 가지 조건에서 가장 두드러집니다.

첫 번째는 데이터를 초과하는 특정성입니다. 모델에 구체적인 판례 인용, 구체적인 약물 상호 작용, 구체적인 역사적 날짜를 요청하십시오. 기저 지식이 얇아도 모델은 그럴듯하게 들리는 답변을 향해 손을 뻗을 것입니다. 학습 데이터에는 인용 형태의 문장이 수백만 개 포함되어 있습니다. 하나를 생산하는 것은 쉽습니다. 실제의 검증 가능한 인용을 생산하려면 모델이 항상 가지고 있지는 않은 다른 종류의 고정이 필요합니다.

두 번째는 지식의 롱테일입니다. 흔한 주제는 학습 데이터에 강하게 표현되고 잘 답변됩니다. 드문 주제는 희박하게 표현되고 얕은 이해를 가리는 표면적 자신감으로 답변됩니다. 소규모 언어, 틈새 규제, 최근의 발전, 소수 문화 맥락 — 모두 이 롱테일에서 더 멀리 있고 모두 더 높은 환각률을 끌어들입니다.

세 번째는 유용해지려는 압력입니다. 모델은 일반적으로 "모릅니다" 같은 응답을 처벌하고 참여하는 실질적인 답변을 보상하는 보상 신호로 학습됩니다. 이것은 대체로 바람직합니다. 노력하는 모델을 원합니다. 그러나 정직한 불확실성이 올바른 출력일 때 추측 쪽으로 균형을 기울입니다.

네 번째는 답의 존재를 전제하는 프롬프트 프레이밍입니다. "X에 대해 판결한 법원의 이름은 무엇인가?"라고 묻는다면, 모델은 그러한 법원의 존재를 질문에 의해 확립된 것으로 취급하고 그럴듯한 이름을 만들어 냅니다. 모델은 가정이 거짓이라도 프롬프트에 내장된 가정과 협력하고 있습니다.

요점은 현재 모델이 잘못 학습되었다는 것이 아닙니다. 요점은 언어 모델의 아키텍처와 목표가 0이 아닌 환각률을 우연이 아니라 고유한 것으로 만든다는 것입니다. 어떤 양의 미세 조정도 그것을 제거하지 않습니다. 줄일 수는 있습니다. 논쟁으로 없앨 수는 없습니다.

왜 단일 모델은 자신의 환각을 신뢰성 있게 잡을 수 없는가

자연스러운 충동은 모델에 자신을 팩트체크하도록 요청하는 것입니다. 이것은 매력적이고 작동하지 않습니다.

언어 모델이 환각된 주장을 만들어 낼 때, 그 주장을 만든 것과 같은 통계적 표면이 "확실합니까?"라고 물었을 때 자신 있는 자기 긍정을 만들어 내는 경향이 있습니다. 모델에는 잘 근거 있는 주장과 그저 그럴듯하게 들리는 주장을 구별할 내부 메커니즘이 없습니다. 확실성 신호는 두 종류의 출력 모두에 걸쳐 일관됩니다.

따라서 같은 모델에 자신을 "검증"하도록 요청하는 것은 대부분 연극적입니다. "내 학습 데이터에 따르면" 또는 "확립된 출처에 따르면" 같은 구절이 추가된 원래 답변의 다듬어진 재진술을 얻을 것입니다. 원래 주장이 견고했는지 여부와 관계없이 모델이 신뢰할 수 있게 들리는 답변과 연관되어 있다고 학습한 구절입니다.

일부 특정 기법은 자기 점검을 약간 향상시킵니다:

자기 일관성은 샘플링과 함께 모델을 여러 번 프롬프트하고 샘플 간의 일치를 봅니다. 이것은 일부 환각을 잡습니다. 잘못된-그러나-그럴듯한 답변은 옳은 답변보다 샘플 간에 더 많이 변동하기 때문입니다. 그러나 모델의 사각지대를 공유합니다. 모든 샘플이 균일하게 잘못된 주제는 일관된 일치처럼 보일 것입니다.

사고 사슬 프롬프팅은 모델에 단계별로 추론하도록 요청합니다. 이것은 논리 문제의 성능을 향상시키지만 사실적 환각을 다루지 않습니다. 단계 자체가 결론과 함께 환각될 수 있기 때문입니다.

검색 증강 생성은 모델을 외부 문서에 고정시킵니다. 이것은 검색이 올바른 문서를 찾고 모델이 그것들이 말하는 것에 대해 정직할 때 진정으로 효과적입니다. 검색이 빗나갈 때(모델은 학습 데이터의 그럴듯함으로 되돌아갑니다) 또는 모델이 검색된 문서를 선택적으로 잘못 인용할 때는 훨씬 덜 효과적입니다.

이 기법 중 어느 것도 근본 문제를 해결하지 않습니다. 언어 모델의 신뢰 개념은 외부 진실이 아니라 유창함에 대해 보정됩니다. 아키텍처는 그 자체로 외부 점검을 수행할 수 없습니다.

이것이 환각 저항이 근본적으로 시스템 문제이고 모델 문제가 아닌 이유입니다. 해결책은 모델 외부에서 — 다른 모델과의 비교, 권위 있는 출처와의 비교, 또는 인간 전문가와의 비교에서 옵니다.

멀티 모델 합의는 어떻게 환각을 잡는가

단일 모델이 자신의 환각을 신뢰성 있게 감지할 수 없다면, 질문은 다음과 같이 됩니다. 무엇이 할 수 있는가?

멀티 모델 합의는 확장하는 가장 실용적인 답입니다. 원리는 단순하고 구현은 더 복잡합니다.

원리: 다른 조직이 다른 학습 데이터로 만든 다른 모델은 다르게 환각합니다. 환각은 정의상 모델이 그럴듯함에서 창작한 출력입니다. 그럴듯함 표면은 모델 간에 다릅니다. 그것들의 학습 표면이 다르기 때문입니다. 진정으로 독립적인 두 모델이 같은 시간에 같은 거짓-그러나-그럴듯한 주장을 창작할 확률은 어느 한쪽이 단독으로 그것을 창작할 확률보다 훨씬 낮습니다.

이것이 정확히 합의가 환각에 효과적인 구조입니다. 다섯이나 여섯의 독립 모델이 같은 구체적인 주장 — 같은 약물 이름, 같은 판결, 같은 통계 — 에 수렴할 때, 모든 다섯이 독립적으로 같은 방식으로 환각했을 가능성은 급격히 떨어집니다. 그것들이 갈릴 때 — 모델 A가 X라고 하고, 모델 B가 Y라고 하고, 모델 C가 존재하지 않는다고 할 때 — 원래 주장이 당신이 행동하기 전에 더 많은 점검을 받을 가치가 있었다는 플래그를 얻습니다.

구현은 효과를 파괴하는 세 가지 함정에 대해 주의 깊어야 합니다.

함정 1: 거짓 독립성. 같은 패밀리의 또는 실질적으로 중첩되는 코퍼스에서 학습된 두 모델은 환각을 공유할 것입니다. 그들의 일치는 증거가 아닙니다. 상관된 오류입니다. 의미 있는 합의는 진정으로 다른 계통의 모델을 사용합니다.

함정 2: 표면적 비교. 합의 시스템이 답변의 어휘적 표면만 비교한다면, 의미적 일치(같은 주장, 다른 단어)를 놓치고 어휘적 일치(같은 단어, 다른 의미)를 과도하게 셀 것입니다. 비교는 각 답변에서 추출된 주장 수준에 있어야 합니다.

함정 3: 숨겨진 불일치. 불일치를 요약하여 제거하는 합의 시스템은 자신의 목적을 패배시킵니다. 불일치는 사용자가 봐야 할 신호입니다. 잘 설계된 합의 출력은 그것을 보존합니다.

세 함정 모두가 피해질 때, 멀티 모델 합의는 단일 모델 환각의 의미 있는 부분을 잡습니다 — 고립된 상태에서 감지하는 것이 아니라, 사용자가 더 조사할 수 있는 불일치 지점으로 표면화함으로써입니다.

이것이 "여러 AI에 묻고 비교하라"가 마케팅 슬로건 이상인 구조적 이유입니다. 외부 시스템이 모델이 집단적으로 알고 있는 것과 그 중 하나가 현재 창작하고 있는 것 사이의 경계를 표시하는 유일한 실용적 방법입니다.

환각이 가장 중요할 때

환각은 균일하게 위험하지 않습니다. 비용은 사용자가 잘못된 답변으로 무엇을 하는지에 달려 있습니다.

낮은 이해관계 사용 — 캐주얼한 메시지를 작성하기, 브레인스토밍하기, 개인 사용을 위해 긴 문서를 요약하기 — 에서, 환각된 세부 사항은 대부분 작은 성가심입니다. 사용자가 유일한 이해관계자이고 감지되지 않은 오류의 결과는 제한적입니다.

높은 이해관계 사용에서, 환각은 복합됩니다.

건강 질문에 대해, 환각된 약물 상호 작용, 조작된 증상-질병 연관, 또는 발명된 투여량이 잘못된 자가 관리 결정 또는 임상의에 대한 잘못된 질문을 유발할 수 있습니다. 이 도메인의 환각은 역사적으로 문서화된 해를 끼쳐 왔습니다.

법적 질문에 대해, 환각의 가장 문서화된 형태는 조작된 판례 인용 — 존재하는 법원 이름, 존재하는 판사 이름이지만 존재하지 않는 사건 — 을 포함합니다. 이를 제출이나 계약에서의 논쟁에 의존하는 사용자는 직접적인 직업적 결과에 직면할 수 있습니다.

금융 질문에 대해, 환각은 발명된 통계 — 만들어진 역사적 수익, 가공의 수익률, 조작된 규제 참조 — 의 형태를 취하는 경향이 있습니다. 이것들은 형식이 데이터 같고 권위 있게 보이기 때문에 특히 위험합니다.

연구와 학술 작업에서, 환각은 가장 자주 발명된 참조 — 존재하지 않는 논문 제목, 공동 저자한 적 없는 저자, 그 기사를 게재한 적 없는 저널 — 로 나타납니다. 출력은 실제 인용 목록과 구조적으로 동일하며, 실제 문헌에 대한 검증만이 어떤 항목이 가공인지를 드러냅니다.

저널리즘과 사실 조사에 대해, 환각은 실재 인물에 귀속된 조작된 인용, 발명된 사건 연대표, 자신 있는 잘못된 귀속을 만들어 낼 수 있습니다. 이 중 어떤 것이라도 출판하는 것의 손상은 명성상의 것이며 때로는 법적인 것입니다.

공통의 실은 환각이 사용자가 출력을 독립적으로 검증할 장비가 가장 적은 곳에서 가장 비싸다는 것입니다. 전문가는 환각된 약물 상호 작용을 발견할 수 있습니다. 일반인은 못합니다. 실무 변호사는 가짜 인용을 발견할 수 있습니다. 대중은 못합니다. 모델의 자신 있는 출력과 독자가 그것을 확인할 능력 사이의 비대칭이 핵심 위험입니다.

실제로 환각 위험을 줄이는 방법

멀티 모델 합의를 사용하는 것을 넘어, 사용자는 환각에 따라 행동할 가능성을 낮추는 여러 습관을 채택할 수 있습니다.

답이 중요할 때마다 출처를 요청하세요. 구체적인 주장에 대한 출처를 명명할 수 없거나 명명하지 않는 모델은 그 구체적인 주장에 대해 덜 신뢰할 만합니다. 출처가 주어진다면, 사슬에 의지하기 전에 적어도 하나를 점검하세요.

구체적인 숫자를 최고 위험 콘텐츠로 취급하세요. 날짜, 백분율, 법령 번호, 약물 용량, 사건 이름 — 권위의 질감을 가진 어떤 것이든 — 은 환각의 가장 흔한 표면입니다. 일반적인 프레이밍보다 세부 사항을 더 의심하세요.

다른 프레이밍으로 다시 물어보세요. 모델이 자신 있는 주장을 주었다면, 가정을 뒤집어 같은 질문을 하세요. 환각된 답변은 종종 같은 주제에 대한 자신의 이전 버전과 조용히 모순됩니다.

되돌리지 않을 결정에 대해 멀티 모델 합의를 사용하세요. 가장 영향력 있는 습관입니다. 건강, 법적, 금전적, 또는 명성적 결과가 있는 어떤 것이든 독립 추론자의 비교에서 오는 세컨드 오피니언을 받을 가치가 있습니다.

마지막 1마일을 위해 AI 출력을 인간 전문가에게 가져가세요. 특히 규제된 도메인에서. AI는 준비 작업 — 포괄적, 광범위, 빠른 — 을 합니다. 인간은 인증 — 좁고, 깊고, 책임 있는 — 을 합니다.

흔한 오해

"현대 모델은 더 이상 환각하지 않는다." 일반적인 질문에서는 2년 전보다 덜 환각합니다. 롱테일 질문, 매우 구체적인 사실 주장, 답의 존재를 전제하는 프롬프트 프레이밍 하에서는 여전히 환각합니다. 비율은 떨어졌지만 0은 아닙니다.

"모델이 인용을 포함하면 그 인용은 실재한다." 반드시 그렇지는 않습니다. 환각된 인용은 가장 흔하고 가장 잘 문서화된 실패 모드 중 하나입니다. 모델은 그럴듯한 저널 이름, 그럴듯한 저자 목록, 그럴듯한 연도를 만들어 낼 것입니다. 실제 저널에 대한 검증만이 인용이 실재함을 증명합니다.

"확실하지 않을 때 모델이 경고할 것이다." 모델은 균일하게 경고하지 않습니다. 일부는 불확실성을 플래그하도록 학습되었습니다. 많은 모델이 실제 신뢰에 관계없이 자신 있게 들리는 답변을 만들어 냅니다. 출력에 단서가 없는 것은 출력이 고정되어 있다는 약한 증거입니다.

"환각은 사실에만 영향을 미친다. 추론은 괜찮다." 추론도 환각될 수 있습니다. 모델은 그럴듯하게 들리는 추론 단계의 사슬을 만들어 낼 수 있고, 그것이 잘못된 결론으로 이어질 수 있습니다. 추론 수준의 환각을 잡는 것은 사실 환각을 잡는 것보다 더 쉽지 않고 더 어렵습니다. 표면이 더 유능하게 보이기 때문입니다.

"더 큰 모델은 환각이 적다." 더 큰 모델은 평균적으로 시도당 환각이 적습니다. 0의 환각을 하지는 않으며, 환각이 가장 중요한 롱테일 주제에서는 더 큰 모델의 개선이 역사적으로 흔한 주제에서의 개선보다 작았습니다.

자주 묻는 질문

왜 이것을 "환각"이라는 용어로 부릅니까? 유추는 인간이 대응하는 현실이 없는 생생한 것을 지각하는 것에 있습니다. 유창하고 자신 있지만 기저의 인식론적 근거가 없는 모델 출력은 같은 모양에 들어맞습니다. 용어는 불완전하지만, 잘못된 답변의 생생함을 포착하기 때문에 정착되었습니다.

환각을 완전히 제거할 수 있습니까? 아닙니다. 언어 모델을 유용하게 만드는 메커니즘 — 학습된 패턴에서 그럴듯한 텍스트를 생성하는 것 — 은 롱테일에서 환각을 만들어 내는 같은 메커니즘입니다. 비율은 더 나은 학습, 검색 고정, 외부 검증을 통해 줄일 수 있습니다. 0에 도달하지는 않습니다.

현재 모델에서 환각은 얼마나 흔합니까? 비율은 모델, 주제, 질문 프레이밍에 따라 다릅니다. 일반적인 질문에서, 현대의 프론티어 모델은 시간의 작은 부분에서 환각합니다. 구체적인 사실 쿼리 — 인용, 통계, 최근 사건 — 에서 비율이 올라갑니다. 롱테일 주제에서, 비율은 최고의 모델에서도 높을 수 있습니다. 전체 그림을 포착하는 단일한 숫자는 없습니다.

합의로 충분합니까? 대부분의 결정에서는 그렇습니다. 단일 모델 환각의 대부분을 불일치로 표면화함으로써 잡습니다. 직업적 무게의 결정 — 의료, 법률, 금융 — 에 대해서는 합의가 출발점이고 인간 전문가가 종점입니다.

특정 답변이 환각되었는지 어떻게 알 수 있습니까? 가장 신뢰할 수 있는 단일 테스트: 출처를 요청하고 출처를 직접 검증하는 것. 모델이 출처를 만들 수 없다면, 주장을 검증되지 않은 것으로 취급하세요. 모델이 만든 출처가 존재하지 않는다면, 주장은 환각되었을 위험이 높습니다.