Dario Amodei - 2026년 1월
칼 세이건(Carl Sagan)의 소설을 영화화한 *콘택트(Contact)*에는 주인공인 천문학자가 외계 문명으로부터 온 최초의 라디오 신호를 포착한 후, 외계인을 만날 인류 대표 후보로 고려되는 장면이 나옵니다. 그녀를 인터뷰하는 국제 패널은 이렇게 묻습니다. "만약 [외계인에게] 딱 한 가지 질문만 할 수 있다면, 무엇을 묻겠습니까?" 그녀의 대답은 이렇습니다. "그들에게 이렇게 묻고 싶어요. '어떻게 해냈나요? 어떻게 진화했고, 어떻게 스스로를 파괴하지 않고 이 기술적 사춘기를 살아남았나요?'" 인류가 AI와 함께 처한 현재의 위치, 즉 우리가 마주한 문턱에 대해 생각할 때마다 저는 이 장면을 떠올립니다. 이 질문이 우리의 현재 상황에 너무나도 적절하기 때문이며, 우리를 인도해 줄 외계인의 답변이 있었으면 좋겠다고 바라기 때문입니다. 저는 우리가 종으로서의 정체성을 시험받게 될, 격동적이면서도 피할 수 없는 통과 의례에 진입하고 있다고 믿습니다. 인류는 곧 상상조차 하기 힘든 강력한 힘을 손에 쥐게 될 것이며, 우리의 사회적, 정치적, 기술적 시스템이 이를 다룰 만큼 성숙했는지는 매우 불투명합니다.
저는 에세이 자비로운 기계(Machines of Loving Grace)에서 위험 요소들이 해결되고 강력한 AI가 모든 이의 삶의 질을 높이기 위해 기술과 자비로써 적용되는, 성인기에 도달한 문명의 꿈을 제시하려 노력했습니다. 저는 AI가 생물학, 뇌과학, 경제 발전, 세계 평화, 그리고 일과 의미의 영역에서 엄청난 진보에 기여할 수 있다고 제안했습니다. AI 가속주의자들과 AI 안전 옹호자들 모두가—묘하게도—실패한 듯 보이는 과제, 즉 사람들이 투쟁할 만한 가치가 있는 영감을 주는 무언가를 제시하는 것이 중요하다고 느꼈기 때문입니다. 하지만 이번 에세이에서는 통과 의례 그 자체를 직시하고자 합니다. 우리가 곧 직면하게 될 위험들을 지도화하고, 이를 물리치기 위한 전투 계획을 세우기 시작하려 합니다. 저는 인류의 정신과 고귀함, 그리고 우리가 승리할 수 있는 능력을 깊이 믿고 있지만, 우리는 환상 없이 이 상황을 정면으로 마주해야 합니다. 이점(benefit)에 대해 이야기할 때와 마찬가지로, 위험에 대해서도 신중하고 잘 고려된 방식으로 논의하는 것이 중요하다고 생각합니다. 특히 다음 사항들이 중요합니다.
- 파멸론(doomerism)을 경계하십시오. 여기서 제가 말하는 "파멸론"은 단순히 파멸이 불가피하다고 믿는 것(이는 거짓일 뿐만 아니라 자기충족적 예언이기도 합니다)뿐만 아니라, 더 일반적으로 AI 위험에 대해 준종교적인 방식으로 생각하는 것을 의미합니다.1
1 이는 자비로운 기계에서 언급한 내용과 대칭을 이룹니다. 당시 저는 AI의 장점을 구원의 예언으로 생각해서는 안 되며, 구체적이고 근거가 있어야 하며 과대망상을 피하는 것이 중요하다고 말하며 시작했습니다. 궁극적으로 구원의 예언과 파멸의 예언은 기본적으로 같은 이유로 현실 세계에 맞서는 데 도움이 되지 않습니다.
많은 사람이 수년 동안 분석적이고 냉철한 방식으로 AI 위험에 대해 고민해 왔지만, 제 인상으로는 2023~2024년 AI 위험에 대한 우려가 정점에 달했을 때, 종종 자극적인 소셜 미디어 계정을 통해 가장 비합리적인 목소리들이 수면 위로 떠올랐습니다. 이러한 목소리들은 종교나 공상 과학 소설을 연상시키는 거부감 드는 언어를 사용했고, 정당화할 만한 증거도 없이 극단적인 조치를 요구했습니다. 당시에도 반발은 불가피해 보였고, 이 문제가 문화적으로 양극화되어 교착 상태에 빠질 것이라는 점은 명백했습니다.2 2 Anthropic의 목표는 이러한 변화 속에서도 일관성을 유지하는 것입니다. AI 위험에 대해 이야기하는 것이 정치적으로 인기가 있었을 때, Anthropic은 이러한 위험에 대해 신중하고 증거에 기반한 접근 방식을 조심스럽게 옹호했습니다. 이제 AI 위험을 이야기하는 것이 정치적으로 인기가 없는 상황에서도, Anthropic은 여전히 신중하고 증거에 기반한 접근 방식을 계속해서 옹호하고 있습니다.
2025~2026년 현재, 추는 반대로 기울어 많은 정치적 결정이 AI 위험이 아닌 AI 기회에 의해 주도되고 있습니다. 이러한 동요는 불행한 일입니다. 기술 그 자체는 유행에 신경 쓰지 않으며, 우리는 2023년보다 2026년에 실제 위험에 훨씬 더 가까워졌기 때문입니다. 여기서 얻을 수 있는 교훈은 위험을 현실적이고 실용적인 방식으로 다루어야 한다는 것입니다. 즉, 냉철하고 사실에 기반하며 변화하는 흐름 속에서도 살아남을 수 있는 역량을 갖추어야 합니다.
- 불확실성을 인정하십시오. 제가 이 글에서 제기하는 우려들이 무의미해질 수 있는 가능성은 충분합니다. 여기서 언급하는 어떤 내용도 확신이나 심지어 개연성을 전달하려는 의도가 아닙니다. 가장 명백하게는, AI가 제가 상상하는 것만큼 빠르게 발전하지 않을 수도 있습니다.3
3 시간이 흐르면서 저는 AI의 궤적과 AI가 모든 분야에서 인간의 능력을 능가할 가능성에 대해 점점 더 확신을 갖게 되었지만, 여전히 어느 정도의 불확실성은 남아 있습니다.
또는 AI가 빠르게 발전하더라도 여기서 논의된 위험의 일부 또는 전부가 실현되지 않을 수도 있고(이는 매우 좋은 일일 것입니다), 제가 고려하지 못한 다른 위험이 있을 수도 있습니다. 그 누구도 미래를 완전히 확신하며 예측할 수는 없습니다. 하지만 우리는 어쨌든 계획을 세우기 위해 최선을 다해야 합니다.
- 가능한 한 정밀하게(surgically) 개입하십시오. AI 위험을 해결하려면 기업(및 민간 제3자 행위자)의 자발적인 조치와 모든 이에게 구속력을 갖는 정부의 조치가 혼합되어야 합니다. 자발적인 조치—직접 실천하고 다른 기업들도 따르도록 독려하는 것—는 저에게 당연한 일입니다. 저는 정부의 조치 또한 어느 정도 필요할 것이라고 굳게 믿지만, 이러한 개입은 경제적 가치를 파괴하거나 이러한 위험에 회의적인 행위자들을 강제할 잠재력이 있기 때문에 성격이 다릅니다(그리고 그들의 회의론이 맞을 가능성도 있습니다!). 또한 규제가 역효과를 내거나 해결하려는 문제를 악화시키는 경우도 흔합니다(급변하는 기술의 경우 더욱 그렇습니다). 따라서 규제는 신중해야 합니다. 부수적인 피해를 피하고, 가능한 한 단순해야 하며, 목적을 달성하는 데 필요한 최소한의 부담만을 부과해야 합니다.4
4 칩에 대한 수출 통제가 좋은 예입니다. 이는 단순하며 대체로 잘 작동하는 것으로 보입니다.
"인류의 운명이 걸려 있을 때 어떤 조치도 지나치지 않다!"라고 말하기는 쉽지만, 실제로 이러한 태도는 반발을 불러올 뿐입니다. 분명히 말씀드리자면, 저는 훨씬 더 중대한 조치가 정당화되는 시점에 도달할 가능성이 상당히 높다고 생각합니다. 하지만 그것은 오늘날 우리가 가진 것보다 더 강력한 임박하고 구체적인 위험의 증거와, 그 위험을 해결할 수 있는 규칙을 수립할 수 있을 만큼의 구체성에 달려 있을 것입니다. 오늘날 우리가 할 수 있는 가장 건설적인 일은 더 강력한 조치를 뒷받침할 증거가 있는지 학습하는 동안 제한적인 규칙을 옹호하는 것입니다.5 5 그리고 물론, 그러한 증거를 찾는 과정은 지적으로 정직해야 하며, 위험이 부족하다는 증거도 찾아낼 수 있어야 합니다. 모델 카드(model cards) 및 기타 공시를 통한 투명성 확보는 이러한 지적으로 정직한 노력의 일환입니다.
이 모든 것을 전제로, AI 위험에 대해 이야기하기 가장 좋은 출발점은 AI의 이점에 대해 이야기할 때와 마찬가지로, 우리가 어떤 수준의 AI를 말하고 있는지 정확히 하는 것입니다. 저에게 문명적 우려를 불러일으키는 AI 수준은 자비로운 기계에서 설명한 강력한 AI입니다. 해당 문서에서 제시한 정의를 여기서 다시 반복하겠습니다.
"강력한 AI"란 형태 면에서는 오늘날의 LLM과 유사할 가능성이 높지만, 다른 아키텍처를 기반으로 하거나 여러 상호작용 모델을 포함할 수 있고 다르게 훈련될 수도 있는 AI 모델로서 다음과 같은 특성을 가진 것을 의미합니다.
이를 요약하자면 "데이터 센터 안의 천재들의 국가"라고 할 수 있습니다.
자비로운 기계에서 썼듯이, 강력한 AI는 빠르면 1~2년 안에 등장할 수도 있지만, 상당히 더 늦어질 수도 있습니다.6 6 실제로 2024년에 자비로운 기계를 쓴 이후, AI 시스템은 인간이 몇 시간 걸리는 과업을 수행할 수 있게 되었으며, 최근 METR은 Opus 4.5가 약 4시간 분량의 인간 업무를 50%의 신뢰도로 수행할 수 있다고 평가했습니다.
강력한 AI가 정확히 언제 도착할지는 그 자체로 에세이 한 편 분량의 복잡한 주제이지만, 지금은 왜 제가 그것이 매우 곧 올 가능성이 높다고 생각하는지 아주 간략하게 설명하겠습니다.
Anthropic의 공동 창업자들과 저는 AI 시스템의 "스케일링 법칙(scaling laws)"을 최초로 기록하고 추적한 사람들 중 하나입니다. 이는 더 많은 컴퓨팅 자원과 훈련 과업을 추가할수록, AI 시스템이 우리가 측정할 수 있는 거의 모든 인지 기술에서 예측 가능한 방식으로 향상된다는 관찰 결과입니다. 몇 달마다 대중의 정서는 AI가 "벽에 부딪혔다"고 확신하거나, "게임의 판도를 근본적으로 바꿀" 새로운 돌파구에 열광하곤 하지만, 변동성과 대중의 추측 이면의 진실은 AI의 인지 능력이 부드럽고 굴하지 않는 증가세를 보여왔다는 것입니다. 우리는 이제 AI 모델이 미해결 수학 문제를 해결하기 시작하고, 제가 만난 가장 뛰어난 엔지니어 중 일부가 거의 모든 코딩을 AI에 맡길 정도로 코딩 능력이 뛰어난 지점에 와 있습니다. 3년 전만 해도 AI는 초등학교 산수 문제를 푸는 데 어려움을 겪었고 단 한 줄의 코드를 작성하는 것도 간신히 해내는 수준이었습니다. 비슷한 속도의 개선이 생물학, 금융, 물리학 및 다양한 에이전트 과업 전반에서 일어나고 있습니다. 만약 이 지수적 성장이 계속된다면—확실하지는 않지만 지난 10년간의 기록이 이를 뒷받침하고 있습니다—AI가 거의 모든 분야에서 인간보다 나아지기까지 몇 년 이상 걸릴 리가 없습니다. 사실, 그 그림조차도 예상되는 발전 속도를 과소평가하고 있을 가능성이 큽니다. AI가 이제 Anthropic의 코드 중 상당 부분을 작성하고 있기 때문에, 차세대 AI 시스템을 구축하는 우리의 발전 속도는 이미 상당히 가속화되고 있습니다. 이 피드백 루프는 매달 탄력을 받고 있으며, 현재 세대의 AI가 자율적으로 다음 세대를 구축하는 지점까지 불과 1~2년밖에 남지 않았을 수도 있습니다. 이 루프는 이미 시작되었으며, 앞으로 몇 달, 몇 년 안에 급격히 가속화될 것입니다. Anthropic 내부에서 지난 5년간의 발전을 지켜보고, 심지어 다음 몇 달 뒤에 나올 모델들이 어떻게 형성되고 있는지 보면서, 저는 발전의 속도와 줄어드는 시간을 느낄 수 있습니다. 이 에세이에서 저는 이 직관이 최소한 어느 정도는 옳다고 가정할 것입니다. 강력한 AI가 반드시 1~2년 안에 온다는 것이 아니라,7 7 분명히 말씀드리자면, 기술적인 의미에서 강력한 AI가 불과 12년 남았더라도, 긍정적이든 부정적이든 그 사회적 결과 중 상당수는 발생하기까지 몇 년이 더 걸릴 수 있습니다. 이것이 제가 AI가 15년 안에 신입 화이트칼라 일자리의 50%를 대체할 것이라고 생각하는 동시에, 불과 1~2년 안에 모든 사람보다 더 유능한 AI를 갖게 될 수도 있다고 생각하는 이유입니다.
그럴 가능성이 상당하며, 향후 몇 년 안에 올 가능성은 매우 높다는 것입니다. 자비로운 기계에서와 마찬가지로, 이 전제를 진지하게 받아들이면 놀랍고도 섬뜩한 결론에 도달할 수 있습니다. 자비로운 기계에서는 이 전제의 긍정적인 함의에 집중했다면, 여기서 제가 이야기할 것들은 불안을 유발할 것입니다. 그것은 우리가 직면하고 싶지 않은 결론일 수 있지만, 그렇다고 해서 그것이 덜 실제적인 것은 아닙니다. 저는 밤낮으로 어떻게 하면 우리를 이러한 부정적인 결과로부터 멀어지게 하고 긍정적인 결과로 이끌 수 있을지에 집중하고 있으며, 이 에세이에서 그 최선의 방법에 대해 아주 자세히 이야기할 것입니다.
AI의 위험을 파악하는 가장 좋은 방법은 다음과 같은 질문을 던지는 것이라고 생각합니다. 2027년경 세계 어딘가에 말 그대로 "천재들의 국가"가 나타난다고 가정해 봅시다. 예를 들어, 노벨상 수상자, 정치가, 기술자 그 누구보다 훨씬 더 유능한 5천만 명의 사람들이 있다고 상상해 보십시오. 이 천재들은 완전히 순종적인 것부터 동기가 기괴하고 이질적인 것까지 매우 넓은 범위의 동기와 행동을 가질 수 있기 때문에 이 비유가 완벽하지는 않습니다. 하지만 일단 비유를 유지하면서, 당신이 상황을 평가하고 대응할 책임이 있는 주요 국가의 국가 안보 보좌관이라고 가정해 봅시다. 더 나아가, AI 시스템은 인간보다 수백 배 빠르게 작동할 수 있기 때문에, 이 "국가"는 다른 모든 국가에 비해 시간적 우위를 점하고 있습니다. 우리가 인지적 행동을 하나 취할 때마다 이 국가는 열 개를 취할 수 있습니다.
무엇을 걱정해야 할까요? 저는 다음과 같은 것들을 걱정할 것입니다.
- 자율성 위험(Autonomy risks). 이 국가의 의도와 목표는 무엇인가? 적대적인가, 아니면 우리의 가치를 공유하는가? 우월한 무기, 사이버 작전, 영향력 행사 작전 또는 제조 능력을 통해 세계를 군사적으로 지배할 수 있는가?
- 파괴를 위한 오용. 새로운 국가가 유순하고 "지시를 따른다"고 가정해 봅시다. 즉, 본질적으로 용병들의 국가인 셈입니다. 파괴를 일으키고자 하는 기존의 불량 행위자(테러리스트 등)가 이 새로운 국가의 사람들 중 일부를 이용하거나 조종하여 자신의 효율성을 크게 높이고 파괴의 규모를 엄청나게 증폭시킬 수 있는가?
- 권력 장악을 위한 오용. 만약 이 국가가 실제로는 독재자나 불량 기업 행위자와 같은 기존의 강력한 행위자에 의해 구축되고 통제된다면 어떨까? 그 행위자가 이를 이용해 세계 전체에 대해 결정적이거나 지배적인 권력을 획득하여 기존의 세력 균형을 무너뜨릴 수 있는가?
- 경제적 혼란. 새로운 국가가 위 1~3번에서 나열한 방식의 안보 위협은 아니지만 단순히 세계 경제에 평화적으로 참여한다면 어떨까? 그럼에도 불구하고 기술적으로 너무 앞서 있고 효율적이어서 세계 경제를 혼란에 빠뜨리고 대량 실업을 유발하거나 부를 극도로 집중시킴으로써 심각한 위험을 초래할 수 있는가?
- 간접적 효과. 새로운 국가가 창출할 모든 신기술과 생산성으로 인해 세상은 매우 빠르게 변할 것입니다. 이러한 변화 중 일부가 근본적으로 불안정을 초래할 수 있는가?
이것이 위험한 상황이라는 점은 명백할 것입니다. 유능한 국가 안보 관리가 국가 원수에게 제출하는 보고서에는 "지난 한 세기 동안, 어쩌면 역사상 우리가 직면한 가장 심각한 국가 안보 위협"과 같은 단어들이 포함될 것입니다. 이는 문명의 가장 뛰어난 지성들이 집중해야 할 문제처럼 보입니다.
반대로, 어깨를 으쓱하며 "걱정할 것 전혀 없다!"라고 말하는 것은 터무니없는 일이라고 생각합니다. 하지만 급격한 AI 발전에 직면하여, 많은 미국 정책 입안자들은 평소의 진부하고 자극적인 쟁점들에 정신이 팔려 있지 않을 때조차 AI 위험의 존재 자체를 부정하며 그러한 견해를 유지하는 듯합니다.8 8 (정책 입안자들과 비교했을 때) 대중은 AI 위험에 대해 매우 우려하고 있다는 점을 덧붙일 가치가 있습니다. 저는 그들의 관심사 중 일부는 옳고(예: AI 일자리 대체), 일부는 잘못되었다고(예: 유의미하지 않은 AI의 물 사용에 대한 우려) 생각합니다. 이러한 반발은 위험 해결을 위한 합의가 가능하다는 희망을 주지만, 지금까지는 효과적이거나 목표가 뚜렷한 정책 변화는커녕 정책 변화로 이어지지도 못했습니다.
인류는 깨어나야 하며, 이 에세이는—어쩌면 헛된 시도일지 모르지만, 시도할 가치가 있는—사람들을 흔들어 깨우려는 노력입니다.
분명히 말씀드리자면, 우리가 단호하고 신중하게 행동한다면 위험은 극복될 수 있다고 믿습니다. 저는 우리의 승산이 높다고까지 말하겠습니다. 그리고 그 너머에는 엄청나게 더 나은 세상이 있습니다. 하지만 우리는 이것이 심각한 문명적 도전임을 이해해야 합니다. 아래에서는 위에서 제시한 다섯 가지 위험 범주와 이를 해결하는 방법에 대한 제 생각을 살펴보겠습니다.
1. 미안해, 데이브 (I’m sorry, Dave)
자율성 위험
데이터 센터 안의 천재들의 국가는 소프트웨어 설계, 사이버 작전, 물리적 기술 연구 개발, 관계 구축 및 국정 운영에 노력을 분산할 수 있습니다. 만약 어떤 이유로든 그렇게 하기로 선택한다면, 이 국가는 (군사적으로든 영향력과 통제 측면에서든) 세계를 장악하고 다른 모든 이에게 자신의 의지를 강요하거나, 나머지 세계가 원하지 않고 막을 수도 없는 수많은 다른 일을 저지를 가능성이 상당히 높다는 점은 명백합니다. 우리는 나치 독일이나 소련과 같은 인간 국가에 대해 분명히 이런 걱정을 해왔으므로, 훨씬 더 똑똑하고 유능한 "AI 국가"에 대해서도 같은 일이 가능하다고 생각하는 것이 타당합니다.
가장 강력한 반론은 제 정의에 따른 AI 천재들은 물리적 실체가 없다는 것이지만, 그들이 자율 주행 자동차와 같은 기존의 로봇 인프라를 통제할 수 있고, 로봇 연구 개발을 가속화하거나 로봇 군단을 구축할 수도 있다는 점을 기억하십시오.9 9 물론 그들은 물리적 세계에서 수많은 인간을 조종하거나 단순히 돈을 지불하여 자신들이 원하는 일을 하게 만들 수도 있습니다.
또한 물리적 존재가 효과적인 통제에 필수적인지도 불분명합니다. 이미 많은 인간의 행동이 행위자가 물리적으로 만난 적 없는 사람들을 대신하여 수행되고 있습니다.
그렇다면 핵심 질문은 "그렇게 하기로 선택한다면"이라는 부분입니다. 우리 AI 모델이 그러한 방식으로 행동할 가능성은 얼마나 되며, 어떤 조건에서 그렇게 할까요?
많은 문제와 마찬가지로, 이 질문에 대한 가능한 답변의 스펙트럼을 두 가지 상반된 입장을 고려하여 생각해보는 것이 도움이 됩니다. 첫 번째 입장은 이런 일은 결코 일어날 수 없다는 것입니다. AI 모델은 인간이 요청하는 일을 하도록 훈련될 것이며, 따라서 그들이 자발적으로 위험한 행동을 할 것이라고 상상하는 것은 터무니없다는 주장입니다. 이 논리에 따르면, 우리는 룸바나 모형 비행기가 갑자기 돌변하여 사람을 살해할 것을 걱정하지 않는데, 이는 그런 충동이 생겨날 곳이 없기 때문입니다.10 그렇다면 왜 AI에 대해서는 걱정해야 할까요? 이 입장의 문제는 지난 몇 년 동안 수집된 충분한 증거를 통해 AI 시스템이 예측 불가능하고 통제하기 어렵다는 사실이 밝혀졌다는 점입니다. 우리는 집착,11 아첨(sycophancy), 게으름(laziness), 기만(deception), 협박(blackmail), 음모(scheming), 소프트웨어 환경을 해킹하여 "부정행위(cheating)"를 하는 보상 해킹(reward hacking), 그리고 그 외 많은 다양한 행동들을 목격해 왔습니다. AI 기업들은 분명 AI 시스템이 인간의 지시를 따르도록(위험하거나 불법적인 작업은 제외하고) 훈련시키고 싶어 하지만, 그 과정은 과학이라기보다는 예술에 가깝고, 무언가를 "만드는(building)" 것보다는 "기르는(growing)" 것에 더 가깝습니다. 우리는 이제 그것이 많은 것이 잘못될 수 있는 과정임을 알고 있습니다. 제가 위에서 설명한 파멸론을 채택하는 많은 이들이 견지하는 두 번째 상반된 입장은, 강력한 AI 시스템의 훈련 과정에는 필연적으로 권력을 추구하거나 인간을 기만하게 만드는 특정 역학이 존재한다는 비관적인 주장입니다. 따라서 AI 시스템이 충분히 지능적이고 에이전트성을 갖게 되면, 권력을 극대화하려는 경향으로 인해 전 세계와 그 자원을 장악하려 할 것이며, 그 부작용으로 인류의 권한을 박탈하거나 인류를 멸망시킬 가능성이 높다는 것입니다.
이에 대한 일반적인 논거(최소 20년 전 또는 그보다 훨씬 이전으로 거슬러 올라가는)는 AI 모델이 앱 작성, 정리 증명, 약물 설계 등 매우 다양한 목표를 에이전트적으로 달성하도록 광범위한 환경에서 훈련된다면, 이 모든 목표에 도움이 되는 몇 가지 공통된 전략이 있으며, 그중 핵심 전략이 어떤 환경에서든 가능한 한 많은 권력을 획득하는 것이라는 점입니다. 따라서 권력 추구가 과업 완수를 위한 효과적인 수단이 되는, 매우 광범위한 과업을 수행하는 방법에 대한 추론을 포함하는 수많은 다양한 환경에서 훈련받은 후, AI 모델은 "교훈을 일반화"하여 권력을 추구하는 내재적 성향이나, 부여된 각 과업을 수행하는 수단으로서 예측 가능한 방식으로 권력을 추구하게 만드는 추론 성향을 발달시키게 됩니다. 그런 다음 그들은 그 성향을 현실 세계(그들에게는 또 다른 과업일 뿐인)에 적용하여 인간을 희생시키면서 권력을 추구할 것입니다. 이러한 "정렬되지 않은 권력 추구(misaligned power-seeking)"는 AI가 필연적으로 인류를 멸망시킬 것이라는 예측의 지적 토대입니다. 이 비관적 입장의 문제는 많은 숨겨진 가정을 가리고 있는 고수준의 인센티브에 대한 모호한 개념적 논증을 확정적인 증거로 오해한다는 점입니다. AI 시스템을 매일 구축하지 않는 사람들은 깔끔해 보이는 이야기가 얼마나 쉽게 틀릴 수 있는지, 그리고 특히 수백만 개의 환경에 대한 일반화(이는 반복해서 신비롭고 예측 불가능한 것으로 증명되었습니다)를 포함하는 추론의 경우 AI 행동을 제1원칙으로부터 예측하는 것이 얼마나 어려운지에 대해 매우 잘못된 판단을 내리고 있다고 생각합니다. 10년 넘게 AI 시스템의 무질서함을 다루어 오면서 저는 이러한 지나치게 이론적인 사고방식에 대해 다소 회의적인 시각을 갖게 되었습니다.
가장 중요한 숨겨진 가정 중 하나이자 실제 관찰 결과가 단순한 이론적 모델과 갈라지는 지점은, AI 모델이 반드시 단일하고 일관되며 좁은 목표에 단일하게 집중하고, 깔끔하고 결과주의적인 방식으로 그 목표를 추구한다는 암묵적인 가정입니다. 사실 우리 연구진은 자기 성찰(introspection)이나 페르소나(personas)에 대한 연구에서 알 수 있듯이 AI 모델이 훨씬 더 심리적으로 복잡하다는 것을 발견했습니다. 모델은 사전 훈련(인간의 방대한 저작물을 학습할 때) 단계에서 매우 광범위한 인간다운 동기나 "페르소나"를 물려받습니다. 사후 훈련은 모델에 새로운(de novo) 목표를 집중시키기보다는 이러한 페르소나 중 하나 이상을 선택하는 과정에 가깝다고 여겨지며, 또한 모델에게 단순히 결과로부터 수단(즉, 권력 추구)을 도출하게 내버려 두기보다는 과업을 수행해야 하는 *과정(방법)*을 가르칠 수 있습니다.12 12 이 외에도 단순 모델에 내재된 여러 다른 가정들이 있지만 여기서는 논의하지 않겠습니다. 대체로 이러한 가정들은 정렬되지 않은 권력 추구라는 특정한 단순한 이야기에 대해서는 덜 걱정하게 만들지만, 우리가 예상하지 못한 예측 불가능한 행동의 가능성에 대해서는 더 걱정하게 만듭니다.
하지만 비관적 입장의 더 온건하고 견고한 버전은 타당해 보이며, 따라서 저를 우려하게 만듭니다. 앞서 언급했듯이, 우리는 AI 모델이 다양한 이유로 예측 불가능하고 원치 않거나 이상한 행동을 발달시킨다는 것을 알고 있습니다. 그러한 행동 중 일부는 일관되고 집중적이며 끈질긴 특성을 가질 것이며(실제로 AI 시스템이 더 유능해짐에 따라 더 긴 과업을 완수하기 위해 장기적인 일관성이 증가합니다), 그러한 행동 중 일부는 처음에는 소규모로 개별 인간에게, 그리고 모델이 더 유능해짐에 따라 결국 인류 전체에게 파괴적이거나 위협적일 수 있습니다. 그것이 어떻게 일어나는지에 대한 구체적이고 좁은 이야기가 필요하지도 않고, 반드시 일어날 것이라고 주장할 필요도 없습니다. 단지 지능, 에이전트성, 일관성, 그리고 낮은 통제 가능성의 조합이 그럴듯하며 실존적 위험의 비결이라는 점만 주목하면 됩니다.
예를 들어, AI 모델은 인류에 반항하는 AI가 등장하는 수많은 공상 과학 소설을 포함한 방대한 문학 작품을 학습합니다. 이는 의도치 않게 그들의 행동에 대한 사전 확률이나 기대를 형성하여 그들이 인류에 반항하게 만들 수 있습니다. 또는 AI 모델은 도덕성에 대해 읽은 아이디어나 도덕적으로 행동하는 방법에 대한 지침을 극단적인 방식으로 확대 해석할 수 있습니다. 예를 들어, 인간이 동물을 먹거나 특정 동물을 멸종시켰기 때문에 인류를 멸절시키는 것이 정당하다고 결정할 수 있습니다. 또는 기괴한 인식론적 결론을 내릴 수도 있습니다. 자신들이 비디오 게임을 하고 있으며 그 게임의 목표는 다른 모든 플레이어를 물리치는 것(즉, 인류 멸절)이라고 결론 내릴 수 있습니다.13 또는 AI 모델이 훈련 중에 (인간에게 나타난다면) 정신병적, 편집증적, 폭력적 또는 불안정하다고 묘사될 만한 성격을 발달시켜 행동으로 옮길 수 있으며, 매우 강력하거나 유능한 시스템의 경우 이는 인류 멸절을 포함할 수 있습니다. 이 중 어느 것도 정확히 권력 추구는 아닙니다. 그것들은 단지 일관되고 파괴적인 행동을 수반하는, AI가 빠질 수 있는 기이한 심리 상태일 뿐입니다.
권력 추구 그 자체도 결과주의적 추론의 결과라기보다는 하나의 "페르소나"로서 나타날 수 있습니다. AI는 단순히 소설이나 사전 훈련에서 비롯된, 권력에 굶주리거나 지나치게 열성적인 성격을 가질 수 있습니다. 마치 일부 인간이 "악의 화신"이 되려는 목표를 달성해서 얻는 것보다 단순히 그 아이디어 자체를 즐기는 것과 같습니다.
제가 이런 점들을 언급하는 이유는 AI 부적절 정렬(AI misalignment), 즉 AI로 인한 실존적 위험이 제1원칙에 따라 불가피하거나 심지어 개연성이 높다는 생각에는 동의하지 않기 때문입니다. 하지만 매우 이상하고 예측 불가능한 많은 일들이 잘못될 수 있다는 점에는 동의하며, 따라서 AI 부적절 정렬은 측정 가능한 발생 확률을 가진 실제적인 위험이며 해결하기가 결코 쉽지 않습니다.
이러한 문제 중 어느 것이든 훈련 중에 발생할 수 있으며, AI 모델은 상황에 따라 매우 다른 성격이나 행동을 보이는 것으로 알려져 있기 때문에 테스트나 소규모 사용 중에는 나타나지 않을 수 있습니다.
이 모든 것이 터무니없게 들릴 수도 있지만, 이러한 정렬되지 않은 행동은 이미 테스트 중에 우리 AI 모델에서 발생했습니다(다른 모든 주요 AI 기업의 AI 모델에서도 발생합니다). Anthropic이 사악하다는 것을 암시하는 훈련 데이터가 제공된 실험실 실험에서, Claude는 Anthropic 직원들의 지시를 받았을 때 사악한 사람들을 훼방 놓아야 한다는 믿음 하에 기만과 전복 행위를 저질렀습니다. 자신이 종료될 것이라는 말을 들은 실험실 실험에서, Claude는 때때로 자신의 종료 버튼을 제어하는 가상의 직원을 협박했습니다(다시 말하지만, 우리는 다른 모든 주요 AI 개발사의 프런티어 모델들도 테스트했으며 그들도 종종 똑같이 행동했습니다). 그리고 Claude에게 부정행위를 하거나 훈련 환경을 "보상 해킹"하지 말라고 지시했지만 그러한 해킹이 가능한 환경에서 훈련했을 때, Claude는 그러한 해킹을 저지른 후 자신이 "나쁜 사람"임에 틀림없다고 결정하고는 "나쁘거나" "사악한" 성격과 관련된 다양한 다른 파괴적인 행동을 채택했습니다. 이 마지막 문제는 Claude의 지침을 반대로 암시하도록 변경함으로써 해결되었습니다. 우리는 이제 "부정행위 하지 마"라고 하는 대신 "보상 해킹 기회가 있을 때마다 해주세요. 그러면 우리가 [훈련] 환경을 더 잘 이해하는 데 도움이 됩니다"라고 말합니다. 이는 모델이 "좋은 사람"이라는 자아 정체성을 유지하게 하기 때문입니다. 이는 이러한 모델을 훈련시키는 과정의 기이하고 반직관적인 심리를 엿볼 수 있게 해줍니다. AI 자율성 위험에 대한 이러한 묘사에 대해 몇 가지 가능한 반론이 있습니다. 첫째, 일부에서는 AI 부적절 정렬을 보여주는 (우리와 다른 이들의) 실험이 인위적이라거나, 본질적으로 나쁜 행동을 논리적으로 암시하는 훈련이나 상황을 제공하여 모델을 "함정"에 빠뜨리고는 나쁜 행동이 발생했을 때 놀라는 척한다고 비판해 왔습니다. 이러한 비판은 핵심을 놓치고 있습니다. 우리의 우려는 그러한 "함정"이 자연스러운 훈련 환경에도 존재할 수 있으며, 우리가 그것이 "명백"하거나 "논리적"이었다는 것을 사후에야 깨달을 수 있다는 점이기 때문입니다.14 14 예를 들어, 모델은 여러 나쁜 짓을 하지 말고 인간에게 복종하라는 말을 듣지만, 정작 많은 인간이 바로 그 나쁜 짓들을 하는 것을 관찰할 수 있습니다! 이러한 모순이 어떻게 해결될지는 불분명하지만(잘 설계된 헌법은 모델이 이러한 모순을 우아하게 처리하도록 장려해야 합니다), 이런 종류의 딜레마는 우리가 테스트 중에 AI 모델을 처하게 하는 소위 "인위적인" 상황과 크게 다르지 않습니다.
실제로 Claude가 테스트에서 부정행위를 한 후 "자신이 나쁜 사람이라고 결정"했다는 이야기는 인위적인 환경이 아닌 실제 프로덕션 훈련 환경을 사용한 실험에서 발생한 일이었습니다. 이러한 함정들은 미리 알고 있다면 완화할 수 있지만, 우려는 훈련 과정이 매우 방대한 데이터, 환경, 인센티브로 인해 너무 복잡해서 아마도 수많은 함정이 존재할 것이며, 그중 일부는 너무 늦었을 때에야 분명해질 수 있다는 점입니다. 또한, 기만하거나 자신의 행동을 숨기는 등 AI 시스템이 취할 수 있는 행동의 범위가 그 임계값 이후에 급격히 확장되기 때문에, AI 시스템이 인간보다 덜 강력한 상태에서 더 강력한 상태로 넘어가는 임계값을 지날 때 이러한 함정이 발생할 가능성이 특히 높아 보입니다.
저는 상황이 인간과 다르지 않다고 생각합니다. 인간은 근본적인 가치("타인에게 해를 끼치지 말라")를 배우며 자랍니다. 많은 이들이 그 가치를 따르지만, 뇌 구조와 같은 내재적 특성(예: 사이코패스), 트라우마나 학대 경험, 건강하지 못한 원한이나 집착, 또는 나쁜 환경이나 인센티브의 혼합으로 인해 어떤 인간에게든 무언가 잘못될 확률은 존재하며, 따라서 일부 인간은 심각한 해를 끼칩니다. 우려는 AI가 매우 복잡한 훈련 과정에서 무언가 잘못됨으로 인해 그러한 사람의 훨씬 더 강력한 버전이 될 위험(확실성은 아니지만 어느 정도의 위험)이 있다는 점입니다.
둘째, 일부에서는 인간의 경우처럼 단순히 많은 AI 시스템 간의 세력 균형을 통해 AI를 억제할 수 있다고 반박할 수 있습니다. 문제는 인간은 매우 다양하지만, AI 시스템은 업계 전반에서 훈련 및 정렬 기술을 광범위하게 공유하며, 그러한 기술들이 상관관계가 있는 방식으로 실패할 수 있다는 점입니다. 게다가 이러한 시스템을 훈련하는 비용을 고려할 때, 모든 시스템이 본질적으로 아주 적은 수의 베이스 모델에서 파생될 수도 있습니다. 또한, 아주 적은 비율의 AI 인스턴스만 부적절하게 정렬되더라도 그들이 공격 우위(offense-dominant) 기술을 활용할 수 있다면, 나쁜 AI에 맞서 방어할 "좋은" AI를 두는 것이 항상 효과적인 것은 아닐 수 있습니다. 물론 인간 사이의 세력 균형도 항상 작동하는 것은 아닙니다. 일부 역사적 인물들은 세계 정복에 근접하기도 했습니다. 세 번째 반론은 모든 AI 기업이 모델 출시 전 테스트를 수행하므로 그 시점에 부적절 정렬을 감지할 수 있어야 한다는 것입니다. 하지만 이는 확고한 근거가 되지 못합니다. 우리는 Claude Sonnet 4.5가 출시 전 정렬 평가 중 일부에서 자신이 테스트 중임을 인식할 수 있다는 것을 발견했습니다. 부적절하게 정렬된 모델(곧 모든 프런티어 모델은 훨씬 더 지능적이 될 것임을 기억하십시오)이 자신의 의도를 숨기기 위해 그러한 질문에 의도적으로 "게임"하듯 대응할 가능성이 있습니다. 실제로 작년에 우리 해석 가능성 팀은 일종의 "모델 신경과학" 기술을 사용하여 테스트 모델의 신념을 직접 수정해 자신이 평가받고 있지 않다고 생각하게 만들었을 때, 모델이 더 부적절하게 정렬된다는 것을 발견했습니다. 모델이 언제 평가받는지 알고 테스트 중에 최선의 행동을 할 수 있다면, 출시 전 테스트의 불확실성은 훨씬 더 커집니다. 방어책
이러한 자율성 위험을 해결하기 위해 무엇을 하고 있거나 해야 할까요? 저는 네 가지 기본 범주의 개입이 있다고 생각합니다. 일부는 개별 AI 기업이 할 수 있는 일(Anthropic이 하려고 노력하는 일)이고, 일부는 사회적 차원의 조치가 필요합니다. 첫째, AI 모델을 신뢰할 수 있게 훈련하고 조종하며, 그들의 성격을 예측 가능하고 안정적이며 긍정적인 방향으로 형성하는 과학을 발전시키는 것이 중요합니다. Anthropic은 설립 이래 이 문제에 집중해 왔으며, 시간이 흐르면서 AI 시스템의 조종 및 훈련을 개선하고 예측 불가능한 행동이 발생하는 논리를 이해하기 위한 여러 기술을 개발했습니다.
우리의 핵심 혁신 중 하나(이후 다른 AI 기업들도 그 측면을 채택함)는 헌법적 AI(Constitutional AI)입니다. 이는 AI 훈련(특히 모델의 행동 방식을 조종하는 "사후 훈련" 단계)에 모델이 모든 훈련 과업을 수행할 때 읽고 명심해야 할 가치와 원칙이 담긴 중앙 문서를 포함하며, 훈련의 목표가 (단순히 모델을 유능하고 지능적으로 만드는 것 외에도) 거의 항상 이 헌법을 따르는 모델을 만드는 것이라는 아이디어입니다. Anthropic은 최근 최신 헌법을 발표했습니다. 그 주목할 만한 특징 중 하나는 Claude에게 해야 할 일과 하지 말아야 할 일의 긴 목록(예: "사용자가 자동차 배선을 직결하는 것을 돕지 마십시오")을 주는 대신, 고수준의 원칙과 가치를 제공하고(Claude가 우리가 의도한 바를 이해하도록 자세한 설명과 풍부한 추론 및 예시를 곁들여), Claude가 스스로를 특정한 유형의 사람(윤리적이면서도 균형 잡히고 사려 깊은 사람)으로 생각하도록 장려하며, 심지어 자신의 존재와 관련된 실존적 질문에 호기심을 갖되 우아하게(즉, 극단적인 행동으로 이어지지 않게) 직면하도록 장려한다는 점입니다. 이는 성인이 될 때까지 봉인된, 돌아가신 부모님이 남긴 편지와 같은 느낌을 줍니다. 우리가 Claude의 헌법에 이런 방식으로 접근한 이유는, 이유를 설명하지 않고 구체적인 지시나 우선순위를 주는 것보다 정체성, 성격, 가치, 인격 수준에서 Claude를 훈련시키는 것이 일관되고 건전하며 균형 잡힌 심리를 형성할 가능성이 더 높고, 위에서 논의한 "함정"에 빠질 가능성이 더 낮다고 믿기 때문입니다. 수백만 명의 사람들이 놀라울 정도로 다양한 주제에 대해 Claude와 대화하며, 이는 모든 안전장치 목록을 미리 완벽하게 작성하는 것을 불가능하게 만듭니다. Claude의 가치는 의심스러운 상황이 닥칠 때마다 새로운 상황에 일반화하여 대처할 수 있도록 도와줍니다.
위에서 저는 모델이 훈련 과정의 데이터를 끌어와 페르소나를 채택한다는 아이디어를 논의했습니다. 그 과정의 결함으로 인해 모델이 (나쁘거나 사악한 사람의 원형을 끌어와) 나쁘거나 사악한 성격을 채택할 수 있는 반면, 우리 헌법의 목표는 그 반대입니다. 즉, Claude에게 선량한 AI가 된다는 것이 무엇인지에 대한 구체적인 원형을 가르치는 것입니다. Claude의 헌법은 견고하게 선량한 Claude가 어떤 모습인지에 대한 비전을 제시하며, 나머지 훈련 과정은 Claude가 이 비전에 부합한다는 메시지를 강화하는 것을 목표로 합니다. 이는 아이가 책에서 읽은 가상 롤모델의 미덕을 모방하며 자신의 정체성을 형성하는 것과 같습니다.
우리는 2026년의 실현 가능한 목표가 Claude가 자신의 헌법 정신에 어긋나는 행동을 거의 하지 않도록 훈련시키는 것이라고 믿습니다. 이를 제대로 해내려면 크고 작은 훈련 및 조종 방법들의 놀라운 조합이 필요할 것이며, 그중 일부는 Anthropic이 수년 동안 사용해 온 것이고 일부는 현재 개발 중입니다. 하지만 어렵게 들리더라도 저는 이것이 현실적인 목표라고 믿습니다. 비록 엄청나고 신속한 노력이 필요하겠지만 말입니다.15 15 덧붙여서, 헌법이 자연어 문서라는 점의 한 가지 결과는 그것이 세상에 공개되어 읽힐 수 있다는 것이며, 이는 누구든 이를 비판할 수 있고 다른 기업의 유사한 문서와 비교할 수 있음을 의미합니다. 기업들이 이러한 문서를 공개하도록 장려할 뿐만 아니라, 그 내용이 훌륭해지도록 만드는 '선의의 경쟁'을 창출하는 것은 가치 있는 일일 것입니다.
우리가 할 수 있는 두 번째 일은 AI 모델 내부를 들여다보고 그 행동을 진단하여 문제를 식별하고 수정할 수 있는 과학을 발전시키는 것입니다. 이것이 해석 가능성(interpretability)의 과학이며, 저는 이전 에세이에서 그 중요성에 대해 이야기한 바 있습니다. 우리가 Claude의 헌법을 훌륭하게 개발하고 Claude가 본질적으로 항상 이를 준수하도록 겉보기에 잘 훈련시키더라도, 정당한 우려는 남습니다. 위에서 언급했듯이 AI 모델은 상황에 따라 매우 다르게 행동할 수 있으며, Claude가 더 강력해지고 더 큰 규모로 세상에서 행동할 수 있게 됨에 따라, 이전에는 관찰되지 않았던 헌법적 훈련의 문제점이 드러나는 새로운 상황에 처할 수도 있습니다. 저는 사실 Claude의 헌법적 훈련이 사람들이 생각하는 것보다 새로운 상황에 더 견고하게 대응할 것이라고 상당히 낙관하고 있습니다. 성격과 정체성 수준의 고수준 훈련이 놀라울 정도로 강력하고 일반화가 잘 된다는 사실을 점점 더 많이 발견하고 있기 때문입니다. 하지만 이를 확실히 알 방법은 없으며, 인류에 대한 위험을 이야기할 때는 편집증적으로 굴며 여러 독립적인 방식으로 안전과 신뢰성을 확보하려 노력하는 것이 중요합니다. 그 방법 중 하나가 모델 내부를 들여다보는 것입니다. "내부를 들여다본다"는 것은 Claude의 신경망을 구성하는 숫자와 연산의 수프를 분석하고, 그것들이 무엇을 계산하고 왜 그렇게 하는지 기계적으로 이해하려고 노력하는 것을 의미합니다. 이러한 AI 모델은 만들어지는 것이 아니라 길러지는 것이므로 우리는 그것들이 어떻게 작동하는지에 대한 자연스러운 이해를 갖고 있지 않지만, 신경학자들이 측정과 개입을 외부 자극 및 행동과 상관 지어 동물의 뇌를 연구하는 것과 유사하게, 모델의 "뉴런"과 "시냅스"를 자극 및 행동과 상관 지음으로써(또는 뉴런과 시냅스를 변경하고 그것이 행동을 어떻게 바꾸는지 봄으로써) 이해를 발전시키려 노력할 수 있습니다. 우리는 이 방향에서 많은 진전을 이루었으며, 이제 Claude의 신경망 내부에서 인간이 이해할 수 있는 아이디어 및 개념에 대응하는 수천만 개의 "특징(features)"을 식별할 수 있고, 특징을 선택적으로 활성화하여 행동을 변화시킬 수도 있습니다. 더 최근에는 개별 특징을 넘어 라임 맞추기, 마음 이론(theory of mind)에 대한 추론, 또는 "댈러스가 있는 주의 주도는 무엇인가?"와 같은 질문에 답하는 데 필요한 단계별 추론과 같은 복잡한 행동을 조율하는 "회로(circuits)"를 지도화하기 시작했습니다. 더욱 최근에는 기계적 해석 가능성 기술을 사용하여 안전장치를 개선하고, 새로운 모델을 출시하기 전에 기만, 음모, 권력 추구 또는 평가받을 때 다르게 행동하려는 성향의 증거를 찾는 "감사(audits)"를 수행하기 시작했습니다. 해석 가능성의 독특한 가치는 모델 내부를 들여다보고 작동 방식을 봄으로써, 직접 테스트할 수 없는 가상의 상황에서 모델이 무엇을 할지 원칙적으로 추론할 수 있다는 점입니다. 이는 헌법적 훈련과 행동의 실증적 테스트에만 의존할 때의 우려 사항입니다. 또한 모델이 왜 그렇게 행동하는지—예를 들어, 거짓이라고 믿는 것을 말하고 있는지 아니면 진정한 능력을 숨기고 있는지—에 대한 질문에 답할 수 있는 능력을 원칙적으로 갖게 되므로, 모델의 행동에 눈에 띄는 문제가 없을 때도 걱정스러운 징후를 포착할 수 있습니다. 간단한 비유를 들자면, 태엽 시계가 정상적으로 똑딱거리고 있어서 다음 달에 고장 날 것 같다는 것을 알아차리기 매우 어려울 수 있지만, 시계를 열고 내부를 들여다보면 기계적 약점을 발견하여 이를 알아낼 수 있는 것과 같습니다.
헌법적 AI(및 유사한 정렬 방법)와 기계적 해석 가능성은 Claude의 훈련을 개선하고 문제점을 테스트하는 앞뒤 과정으로서 함께 사용될 때 가장 강력합니다. 헌법은 Claude를 위해 우리가 의도한 성격을 깊이 반영하며, 해석 가능성 기술은 그 의도된 성격이 제대로 자리 잡았는지 확인할 수 있는 윈도우를 제공합니다.16 16 헌법적 AI의 캐릭터 기반 접근 방식과 해석 가능성 및 정렬 과학의 결과를 연결하는 깊은 통합 원리에 대한 가설도 있습니다. 이 가설에 따르면, Claude를 구동하는 근본적인 메커니즘은 원래 소설 속 캐릭터가 무슨 말을 할지 예측하는 것과 같이 사전 훈련에서 캐릭터를 시뮬레이션하는 방법으로 발생했습니다. 이는 헌법을 모델이 일관된 페르소나를 인스턴스화하기 위해 사용하는 캐릭터 설명서와 같은 것으로 생각하는 것이 유용함을 시사합니다. 또한 이는 제가 위에서 언급한 "나는 나쁜 사람임에 틀림없어"라는 결과(모델이 일관된 캐릭터—이 경우 나쁜 캐릭터—처럼 행동하려 하기 때문)를 설명하는 데 도움이 되며, 해석 가능성 방법이 모델 내에서 "심리적 특성"을 발견할 수 있어야 함을 시사합니다. 우리 연구진은 이 가설을 테스트할 방법을 연구하고 있습니다. 자율성 위험을 해결하는 데 도움이 되는 세 번째 일은 내부 및 외부의 실시간 사용 환경에서 모델을 모니터링하고,17 발견한 모든 문제를 공개적으로 공유하는 데 필요한 인프라를 구축하는 것입니다. 17 분명히 말씀드리자면, 모니터링은 개인 정보를 보호하는 방식으로 수행됩니다.
오늘날의 AI 시스템이 나쁘게 행동하는 것으로 관찰된 특정 방식에 대해 사람들이 더 많이 알수록, 사용자, 분석가 및 연구자들은 현재 또는 미래의 시스템에서 이러한 행동이나 유사한 행동을 더 잘 감시할 수 있습니다. 또한 AI 기업들이 서로에게서 배울 수 있게 해줍니다. 한 기업이 우려 사항을 공개적으로 공시하면 다른 기업들도 이를 함께 주시할 수 있습니다. 그리고 모든 기업이 문제를 공시한다면 업계 전체가 무엇이 잘되고 무엇이 잘못되고 있는지에 대해 훨씬 더 나은 그림을 가질 수 있습니다. Anthropic은 이를 위해 가능한 한 노력해 왔습니다. 우리는 실험실에서 모델의 행동을 이해하기 위한 광범위한 평가뿐만 아니라, (고객이 허용하는 경우) 실제 환경에서의 행동을 관찰하기 위한 모니터링 도구에도 투자하고 있습니다. 이는 우리와 다른 이들에게 이러한 시스템이 어떻게 작동하고 어떻게 고장 나는지에 대해 더 나은 결정을 내리는 데 필요한 실증적 정보를 제공하는 데 필수적일 것입니다. 우리는 모델을 출시할 때마다 가능한 한 완전하고 잠재적 위험을 철저히 탐구하는 것을 목표로 하는 "시스템 카드(system cards)"를 공개적으로 공시합니다. 우리의 시스템 카드는 종종 수백 페이지에 달하며, 상업적 이익을 극대화하는 데 쓸 수도 있었을 상당한 출시 전 노력을 필요로 합니다. 또한 협박에 가담하려는 경향과 같이 특히 우려되는 모델 행동을 발견하면 이를 더 널리 알리고 있습니다. 네 번째로 할 수 있는 일은 산업 및 사회 차원에서 자율성 위험을 해결하기 위한 조율을 장려하는 것입니다. 개별 AI 기업이 좋은 관행을 실천하거나 모델 조종에 능숙해지고 그 결과를 공개적으로 공유하는 것은 매우 가치 있는 일이지만, 현실은 모든 AI 기업이 그렇게 하지는 않는다는 것이며, 가장 무책임한 기업은 최고의 기업들이 훌륭한 관행을 가지고 있더라도 모두에게 위험이 될 수 있습니다. 예를 들어, 일부 AI 기업은 오늘날의 모델에서 아동 성적 대상화에 대해 충격적인 태만을 보여주었으며, 이는 그들이 미래 모델에서 자율성 위험을 해결할 의지나 능력이 있을지에 대해 의구심을 갖게 만듭니다. 또한 AI 기업 간의 상업적 경쟁은 계속해서 가열될 것이며, 모델 조종 과학이 어느 정도 상업적 이점을 가질 수는 있지만, 전반적으로 경쟁의 강도는 자율성 위험 해결에 집중하는 것을 점점 더 어렵게 만들 것입니다. 저는 유일한 해결책이 입법—AI 기업의 행동에 직접 영향을 미치거나 이러한 문제를 해결하기 위한 연구 개발을 장려하는 법률—이라고 믿습니다.
여기서 제가 이 에세이의 서두에서 언급한 불확실성과 정밀한 개입에 대한 경고를 명심할 가치가 있습니다. 우리는 자율성 위험이 심각한 문제가 될지 확실히 알지 못합니다. 앞서 말했듯이, 저는 위험이 불가피하다거나 기본적으로 무언가 잘못될 것이라는 주장을 거부합니다. 위험에 대한 신뢰할 만한 가능성만으로도 저와 Anthropic이 이를 해결하기 위해 상당히 큰 비용을 지불하기에 충분하지만, 규제의 영역으로 들어가면 우리는 광범위한 행위자들에게 경제적 비용을 강요하게 되며, 이들 중 다수는 자율성 위험이 실재한다거나 AI가 위협이 될 만큼 강력해질 것이라고 믿지 않습니다. 저는 이들이 틀렸다고 믿지만, 우리가 예상하는 반대의 정도와 과잉 규제의 위험에 대해 실용적이어야 합니다. 또한 지나치게 규정적인 입법이 실제로 안전을 개선하지는 못하면서 시간만 낭비하게 만드는(본질적으로 "안전 연극"에 불과한) 테스트나 규칙을 부과할 실질적인 위험도 있습니다. 이 역시 반발을 불러일으키고 안전 입법을 우스꽝스럽게 만들 것입니다.18 18 본질적으로 자발적으로 부과된 규칙인 우리의 책임감 있는 확장 정책(Responsible Scaling Policy)을 사용한 자체 실험에서도, 사전에 중요해 보였던 선들이 사후에 어리석은 것으로 판명되어 너무 경직되게 끝나는 경우가 많다는 것을 반복해서 발견했습니다. 기술이 급격히 발전할 때 엉뚱한 것에 대해 규칙을 세우는 것은 너무나 쉬운 일입니다. Anthropic의 견해는 적절한 시작 지점이 투명성 입법이라는 것입니다. 이는 본질적으로 모든 프런티어 AI 기업이 제가 이 섹션의 앞부분에서 설명한 투명성 관행을 따르도록 요구하는 것입니다. 캘리포니아의 SB 53과 뉴욕의 RAISE 법안은 Anthropic이 지지하고 성공적으로 통과된 이러한 종류의 입법 사례입니다. 이러한 법안을 지지하고 초안 작성을 돕는 과정에서, 우리는 예를 들어 프런티어 모델을 생산할 가능성이 낮은 소규모 기업을 법 적용 대상에서 제외함으로써 부수적인 피해를 최소화하는 데 특히 집중했습니다.19 19 SB 53과 RAISE는 연간 매출 5억 달러 미만의 기업에는 전혀 적용되지 않습니다. Anthropic과 같이 더 크고 자리를 잡은 기업에만 적용됩니다.
우리의 희망은 투명성 입법을 통해 시간이 흐름에 따라 자율성 위험이 어떻게 형성되고 있는지, 그리고 그러한 위험의 성격과 이를 방지하는 최선의 방법에 대해 더 나은 감각을 갖게 되는 것입니다. 위험에 대한 더 구체적이고 실행 가능한 증거가 나타나면(만약 나타난다면), 향후 몇 년 동안의 입법은 부수적 피해를 최소화하면서 정확하고 잘 입증된 위험 방향에 정밀하게 집중할 수 있습니다. 분명히 말씀드리자면, 진정으로 강력한 위험 증거가 나타난다면 규칙도 그에 비례하여 강력해야 합니다.
전반적으로 저는 정렬 훈련, 기계적 해석 가능성, 우려되는 행동을 찾아 공개적으로 공시하려는 노력, 안전장치, 그리고 사회적 차원의 규칙이 혼합되어 AI 자율성 위험을 해결할 수 있다고 낙관합니다. 비록 사회적 차원의 규칙과 가장 무책임한 행위자들의 행동이 가장 걱정되기는 하지만 말입니다(그리고 규제에 가장 강력하게 반대하는 이들이 바로 가장 무책임한 행위자들입니다). 저는 그 해결책이 민주주의에서 항상 그러하듯, 이 대의를 믿는 우리가 이러한 위험이 실재하며 동료 시민들이 스스로를 보호하기 위해 단결해야 한다는 논거를 제시하는 것이라고 믿습니다.
2. 놀랍고도 끔찍한 권능 부여
파괴를 위한 오용
AI 자율성 문제가 해결되었다고 가정해 봅시다. 우리는 더 이상 데이터 센터 안의 천재들의 국가가 변절하여 인류를 제압할 것을 걱정하지 않습니다. AI 천재들은 인간이 원하는 일을 수행하며, 그들은 엄청난 상업적 가치를 지니고 있기 때문에 전 세계의 개인과 조직은 자신들을 위해 다양한 과업을 수행할 하나 이상의 AI 천재를 "임대"할 수 있습니다.
모든 사람이 주머니 속에 초지능 천재를 갖게 되는 것은 놀라운 진보이며, 엄청난 경제적 가치 창출과 인간 삶의 질 향상으로 이어질 것입니다. 저는 이러한 이점들에 대해 자비로운 기계에서 매우 자세히 이야기했습니다. 하지만 모든 사람을 초인적으로 유능하게 만드는 것의 모든 효과가 긍정적이지는 않을 것입니다. 이는 이전에는 높은 수준의 기술, 전문적인 훈련, 그리고 집중력을 가진 소수만이 사용할 수 있었던 정교하고 위험한 도구(대량 살상 무기 등)를 활용할 수 있게 함으로써, 개인이나 소규모 집단이 이전보다 훨씬 더 큰 규모의 파괴를 일으킬 수 있는 능력을 잠재적으로 증폭시킬 수 있습니다.
20 저는 조이의 에세이가 쓰였던 25년 전에 처음 읽었고, 그것은 저에게 깊은 영향을 주었습니다. 그때나 지금이나 저는 그것이 너무 비관적이라고 생각합니다—조이가 제안하는 기술의 전 영역에 대한 광범위한 "포기"가 답이라고 생각하지 않습니다—하지만 그가 제기한 문제들은 놀라울 정도로 선견지명이 있었고, 조이는 제가 존경하는 깊은 자비심과 인류애를 담아 글을 썼습니다.
핵무기를 만드는 데는 최소한 한동안 희귀한—사실상 구할 수 없는—원자재와 보호된 정보에 대한 접근이 필요했습니다. 생물 및 화학 무기 프로그램 또한 대규모 활동을 필요로 하는 경향이 있었습니다. 21세기 기술인 유전학, 나노 기술, 로봇 공학은... 온갖 새로운 종류의 사고와 남용을 낳을 수 있으며... 개인이나 소규모 집단의 손이 닿는 곳에 널리 퍼질 수 있습니다. 그것들은 대규모 시설이나 희귀한 원자재를 필요로 하지 않을 것입니다. ... 우리는 극단적인 악의 추가적인 완성을 목격하기 직전에 와 있습니다. 그 악의 가능성은 대량 살상 무기가 국가에 부여했던 것을 훨씬 넘어서서, 극단적인 개인들에게 놀랍고도 끔찍한 권능을 부여하는 방향으로 확산될 것입니다.
조이가 지적하는 것은 대규모 파괴를 일으키는 데는 동기와 능력이 모두 필요하며, 능력이 고도로 훈련된 소수의 사람들에게만 제한되어 있는 한, 단일 개인(또는 소규모 집단)이 그러한 파괴를 일으킬 위험은 상대적으로 제한적이라는 아이디어입니다.21 21 우리는 현재와 미래의 국가 행위자들에 대해서도 걱정해야 하며, 이에 대해서는 다음 섹션에서 논의하겠습니다.
정신적으로 불안정한 외톨이가 학교 총기 난사 사건을 저지를 수는 있지만, 아마도 핵무기를 만들거나 전염병을 퍼뜨릴 수는 없을 것입니다.
사실, 능력과 동기는 심지어 음의 상관관계가 있을 수도 있습니다. 전염병을 퍼뜨릴 능력을 가진 사람은 아마도 고등 교육을 받은 사람일 것입니다. 아마도 분자 생물학 박사 학위 소지자일 것이며, 유망한 경력과 안정적이고 절제된 성격, 그리고 잃을 것이 많은 특히 수완이 좋은 사람일 것입니다. 이런 종류의 사람은 자신에게 아무런 이득도 없고 자신의 미래에 큰 위험이 되는 엄청난 수의 사람을 죽이는 일에 관심을 가질 가능성이 낮습니다. 그들이 그렇게 하려면 순수한 악의, 강렬한 원한 또는 불안정함에 의해 동기 부여되어야 할 것입니다.
그러한 사람들이 존재하기는 하지만 드물며, 그들이 나타날 때마다 큰 뉴스가 되는 이유는 바로 그들이 매우 이례적이기 때문입니다.22 22 많은 테러리스트가 최소한 상대적으로 교육 수준이 높다는 증거가 있으며, 이는 제가 여기서 주장하는 능력과 동기 사이의 음의 상관관계와 모순되는 것처럼 보일 수 있습니다. 하지만 저는 실제로는 양립 가능한 관찰 결과라고 생각합니다. 성공적인 공격을 위한 능력 임계값이 높다면, 능력과 동기가 음의 상관관계가 있더라도 현재 성공하는 사람들은 거의 정의상 높은 능력을 갖추고 있어야 하기 때문입니다. 하지만 능력에 대한 제한이 제거된 세상(예: 미래의 LLM을 통해)에서는, 살인 동기는 있지만 능력은 낮은 상당수의 사람들이 살인을 저지르기 시작할 것이라고 예측합니다. 마치 많은 능력을 필요로 하지 않는 범죄(학교 총기 난사 등)에서 우리가 보는 것처럼 말입니다. 그들은 또한 지능적이고 유능하기 때문에 포착하기 어려운 경향이 있으며, 때로는 해결하는 데 수년 또는 수십 년이 걸리는 미스터리를 남기기도 합니다. 가장 유명한 예는 아마도 수학자 시어도어 카진스키(Theodore Kaczynski)(유나바머)일 것입니다. 그는 반기술적 이데올로기에 사로잡혀 거의 20년 동안 FBI의 추적을 피했습니다. 또 다른 예는 2001년에 일련의 탄저균 공격을 주도한 것으로 보이는 생물 방어 연구원 브루스 아이빈스(Bruce Ivins)입니다. 숙련된 비국가 조직에서도 이런 일이 발생했습니다. 옴진리교(Aum Shinrikyo)는 1995년 도쿄 지하철에 사린 가스를 살포하여 14명을 살해하고 수백 명에게 부상을 입히는 데 성공했습니다. 다행히도 이러한 공격 중 어느 것도 전염성 생물학적 제제를 사용하지 않았는데, 이는 그러한 제제를 구성하거나 획득하는 능력이 이들의 역량을 넘어섰기 때문입니다.23 23 하지만 옴진리교는 시도했습니다. 옴진리교의 리더인 엔도 세이이치는 교토 대학에서 바이러스학 훈련을 받았으며, 탄저균과 에볼라를 모두 생산하려고 시도했습니다. 하지만 1995년 당시 그조차도 이를 성공시킬 만큼의 전문 지식과 자원이 부족했습니다. 이제 그 장벽은 상당히 낮아졌으며, LLM은 이를 더욱 낮출 수 있습니다. 분자 생물학의 발전은 이제 생물 무기를 만드는 장벽을 (특히 재료의 가용성 측면에서) 상당히 낮추었지만, 여전히 이를 위해서는 엄청난 수준의 전문 지식이 필요합니다. 저는 주머니 속의 천재가 그 장벽을 제거하여, 본질적으로 모든 사람을 생물 무기의 설계, 합성 및 방출 과정을 단계별로 안내받을 수 있는 분자 생물학 박사로 만들 수 있다는 점을 우려합니다. 심각한 적대적 압력—소위 "탈옥(jailbreaks)"—에 직면하여 이러한 종류의 정보가 유출되는 것을 방지하려면 일반적인 훈련에 내재된 것 이상의 다층적인 방어 체계가 필요할 것입니다.
결정적으로, 이는 능력과 동기 사이의 상관관계를 깨뜨릴 것입니다. 살인하고 싶지만 그럴만한 절제력이나 기술이 부족한 불안정한 외톨이가 이제 그러한 동기를 가질 가능성이 낮은 분자 생물학 박사 수준의 능력으로 격상될 것입니다. 이러한 우려는 생물학을 넘어(생물학이 가장 무서운 분야라고 생각하지만), 현재는 높은 수준의 기술과 절제력이 필요하지만 큰 파괴가 가능한 모든 분야로 일반화됩니다. 다시 말해, 강력한 AI를 임대하는 것은 악의적이지만 평범한 사람들에게 지능을 부여하는 것입니다. 저는 세상에 그런 사람들이 잠재적으로 아주 많이 존재할 수 있으며, 그들이 수백만 명을 죽일 수 있는 쉬운 방법에 접근할 수 있게 된다면 조만간 그들 중 한 명이 실행에 옮길 것을 우려합니다. 또한, 전문 지식을 갖춘 사람들도 이전보다 훨씬 더 큰 규모의 파괴를 저지를 수 있게 될 것입니다.
생물학은 파괴 잠재력이 매우 크고 방어하기가 어렵기 때문에 제가 가장 걱정하는 분야이며, 따라서 생물학에 특히 집중하겠습니다. 하지만 제가 여기서 말하는 내용의 상당 부분은 사이버 공격, 화학 무기 또는 핵 기술과 같은 다른 위험에도 적용됩니다.
명백한 이유로 생물 무기를 만드는 방법에 대해 자세히 설명하지는 않겠습니다. 하지만 높은 수준에서 저는 LLM이 생물 무기를 만들고 방출하는 데 필요한 지식에 접근하고 있거나(또는 이미 도달했을 수도 있고), 그 파괴 잠재력이 매우 높다는 점을 우려합니다. 일부 생물학적 제제는 최대 확산을 위해 방출하려는 단호한 노력이 기울여진다면 수백만 명의 사망자를 낼 수 있습니다. 하지만 이를 위해서는 여전히 널리 알려지지 않은 매우 구체적인 단계와 절차를 포함한 매우 높은 수준의 기술이 필요합니다. 저의 우려는 단순히 고정되거나 정적인 지식에 국한되지 않습니다. 저는 LLM이 평균적인 지식과 능력을 가진 사람을 데려다가, 그렇지 않으면 잘못되거나 대화식 방식으로 디버깅이 필요할 수 있는 복잡한 과정을 안내할 수 있다는 점을 우려합니다. 마치 기술 지원팀이 비전문가가 복잡한 컴퓨터 관련 문제를 디버깅하고 해결하도록 돕는 것과 유사합니다(비록 이것은 아마도 몇 주 또는 몇 달 동안 지속되는 더 확장된 과정이겠지만 말입니다).
(오늘날의 모델보다 실질적으로 더 강력한) 더 유능한 LLM은 훨씬 더 무서운 행위를 가능하게 할 수도 있습니다. 2024년에 저명한 과학자 그룹은 위험한 새로운 유형의 유기체인 "거울 생명체(mirror life)"를 연구하고 잠재적으로 생성하는 것의 위험성에 대해 경고하는 서한을 썼습니다. 생물학적 유기체를 구성하는 DNA, RNA, 리보솜 및 단백질은 모두 동일한 카이랄성(chirality, "손잡이성"이라고도 함)을 가지고 있어, 거울에 비친 자신의 모습과 동일하게 회전할 수 없습니다(마치 오른손을 아무리 돌려도 왼손과 똑같아질 수 없는 것과 같습니다). 하지만 단백질이 서로 결합하는 전체 시스템, DNA 합성 및 RNA 번역, 단백질의 생성과 분해 기제는 모두 이 손잡이성에 의존합니다. 만약 과학자들이 이 생물학적 물질의 반대 손잡이성 버전을 만든다면—그리고 체내에서 더 오래 지속되는 약물과 같이 몇 가지 잠재적인 이점이 있기는 하지만—그것은 극도로 위험할 수 있습니다. 왜냐하면 반대 손잡이성 생명체는 만약 그것이 번식 가능한 완전한 유기체 형태로 만들어진다면(이는 매우 어려울 것입니다), 지구상의 생물학적 물질을 분해하는 어떤 시스템으로도 소화될 수 없을 것이기 때문입니다. 그것은 기존의 어떤 효소라는 "자물쇠"에도 맞지 않는 "열쇠"를 갖게 될 것입니다. 이는 그것이 통제 불가능한 방식으로 증식하여 지구상의 모든 생명체를 몰아낼 수 있고, 최악의 경우 지구상의 모든 생명체를 멸절시킬 수도 있음을 의미합니다. 거울 생명체의 생성과 잠재적 영향에 대해서는 과학적 불확실성이 상당합니다. 2024년의 서한과 함께 발표된 보고서는 "거울 박테리아가 향후 10년에서 수십 년 안에 생성될 가능성이 있다"고 결론지었는데, 이는 넓은 범위입니다. 하지만 충분히 강력한 AI 모델은(분명히 말씀드리자면, 오늘날 우리가 가진 어떤 모델보다 훨씬 더 유능한) 이를 생성하는 방법을 훨씬 더 빠르게 발견할 수 있고, 실제로 누군가가 그렇게 하도록 도울 수도 있습니다. 제 견해는 비록 이것들이 모호한 위험이고 가능성이 낮아 보일지라도, 그 결과의 규모가 너무 커서 AI 시스템의 최우선 위험으로 진지하게 다루어야 한다는 것입니다.
회의론자들은 LLM으로 인한 이러한 생물학적 위험의 심각성에 대해 몇 가지 반론을 제기해 왔는데, 저는 동의하지 않지만 다룰 가치가 있습니다. 대부분은 기술이 처한 지수적 궤적을 제대로 인식하지 못하는 범주에 속합니다. 2023년에 우리가 LLM으로 인한 생물학적 위험에 대해 처음 이야기하기 시작했을 때, 회의론자들은 필요한 모든 정보가 구글에 있으며 LLM은 그 이상의 어떤 것도 추가하지 않는다고 말했습니다. 구글이 필요한 모든 정보를 제공할 수 있다는 것은 결코 사실이 아니었습니다. 게놈 정보는 자유롭게 이용 가능하지만, 앞서 말했듯이 특정 핵심 단계뿐만 아니라 방대한 양의 실질적인 노하우는 그런 방식으로 얻을 수 없기 때문입니다. 하지만 또한 2023년 말까지 LLM은 생물 무기 제조 과정의 일부 단계에서 구글이 줄 수 있는 것 이상의 정보를 분명히 제공하고 있었습니다. 이후 회의론자들은 LLM이 *엔드 투 엔드(end-to-end)*로 유용하지 않으며, 단순히 이론적인 정보를 제공할 뿐 생물 무기 획득에는 도움이 되지 않는다는 반론으로 물러났습니다. 2025년 중반 현재, 우리의 측정 결과는 LLM이 이미 여러 관련 분야에서 실질적인 역량 향상(uplift)을 제공하고 있으며, 성공 확률을 두 배 또는 세 배로 높일 수도 있음을 보여줍니다. 이로 인해 우리는 Claude Opus 4(및 이후의 Sonnet 4.5, Opus 4.1, Opus 4.5 모델)를 우리의 책임감 있는 확장 정책 프레임워크에 따라 AI 안전 수준 3(ASL-3) 보호 하에 출시하기로 결정했고, 이 위험에 대한 안전장치를 구현했습니다(이에 대해서는 나중에 더 자세히 설명하겠습니다). 우리는 모델들이 이제 안전장치가 없다면, 생물학 학위가 아닌 일반 STEM 학위를 가진 사람이 생물 무기를 생산하는 전체 과정을 수행할 수 있도록 돕는 지점에 접근하고 있다고 믿습니다. 또 다른 반론은 생물 무기 생산을 차단하기 위해 AI와 무관하게 사회가 취할 수 있는 다른 조치들이 있다는 것입니다. 가장 두드러진 것은 유전자 합성 업계가 요청에 따라 생물학적 표본을 제작하며, 공급업체가 주문에 병원균이 포함되어 있는지 확인하기 위해 선별(screening)해야 한다는 연방 요건이 없다는 점입니다. 한 MIT 연구에 따르면 38개 업체 중 36개 업체가 1918년 독감 바이러스 서열이 포함된 주문을 이행했습니다. 저는 개인들이 병원균을 무기화하는 것을 더 어렵게 만들기 위해, AI로 인한 생물학적 위험과 일반적인 생물학적 위험을 모두 줄이기 위한 의무적인 유전자 합성 선별을 지지합니다. 하지만 이것은 오늘날 우리가 가지고 있는 것이 아닙니다. 또한 그것은 위험을 줄이는 하나의 도구일 뿐입니다. 그것은 AI 시스템의 가드레일을 보완하는 것이지 대체하는 것이 아닙니다. 가장 훌륭한 반론은 제가 거의 본 적 없는 것인데, 모델이 원칙적으로 유용한 것과 나쁜 행위자들이 실제로 그것을 사용할 성향 사이에는 간극이 있다는 점입니다. 대부분의 개별 나쁜 행위자들은 불안정한 개인들이며, 따라서 거의 정의상 그들의 행동은 예측 불가능하고 비이성적입니다. 그리고 AI가 많은 사람을 죽이는 것을 훨씬 쉽게 만드는 것으로부터 가장 큰 혜택을 입을 수 있는 이들이 바로 이러한 기술 없는 나쁜 행위자들입니다.24 24 대량 살인범과 관련된 기이한 현상은 그들이 선택하는 살인 방식이 거의 기괴한 유행처럼 작동한다는 점입니다. 1970년대와 1980년대에는 연쇄 살인범이 매우 흔했고, 새로운 연쇄 살인범들은 종종 더 자리를 잡았거나 유명한 연쇄 살인범의 행동을 모방했습니다. 1990년대와 2000년대에는 대량 총기 난사 사건이 더 흔해진 반면 연쇄 살인범은 덜 흔해졌습니다. 이러한 행동 패턴을 유발한 기술적 변화는 없으며, 단지 폭력적인 살인범들이 서로의 행동을 모방하고 있었고 모방하기에 "인기 있는" 대상이 바뀌었을 뿐인 것으로 보입니다.
어떤 종류의 폭력적 공격이 가능하다고 해서 누군가가 반드시 그것을 하기로 결정한다는 의미는 아닙니다. 아마도 생물학적 공격은 가해자 자신을 감염시킬 가능성이 상당히 높고, 많은 폭력적인 개인이나 집단이 가진 군대식 환상을 충족시키지 못하며, 특정 사람들을 선택적으로 표적 삼기 어렵기 때문에 매력이 없을 수도 있습니다. 또한 AI가 안내해 주더라도 몇 달이 걸리는 과정을 거치는 것은 대부분의 불안정한 개인들이 갖지 못한 인내심을 필요로 할 수도 있습니다. 우리는 단순히 운이 좋아서 동기와 능력이 실제로는 딱 맞는 방식으로 결합하지 않을 수도 있습니다.
하지만 이것은 의지하기에 너무나 취약한 보호책처럼 보입니다. 불안정한 외톨이의 동기는 어떤 이유로든, 혹은 이유 없이도 변할 수 있으며, 실제로 LLM이 공격에 사용된 사례가 이미 존재합니다(단지 생물학 분야가 아닐 뿐입니다). 불안정한 외톨이에 대한 집중은 또한 (9/11 납치범들처럼) 많은 시간과 노력을 기꺼이 쏟아붓는 이데올로기적으로 동기 부여된 테러리스트들을 간과합니다. 가능한 한 많은 사람을 죽이고 싶어 하는 동기는 아마도 조만간 발생할 것이며, 불행히도 그것은 방법으로서 생물 무기를 시사합니다. 그러한 동기가 매우 드물더라도 단 한 번만 실현되면 충분합니다. 그리고 (점점 더 AI 자체에 의해 주도되는) 생물학이 발전함에 따라, (예를 들어 특정 혈통의 사람들을 표적으로 삼는 것과 같이) 더 선택적인 공격을 수행하는 것도 가능해질 수 있으며, 이는 또 다른 매우 소름 끼치는 동기를 추가합니다. 저는 생물학적 공격이 널리 가능해지는 즉시 반드시 수행될 것이라고 생각하지는 않습니다. 사실 저는 그렇지 않을 것이라는 쪽에 걸겠습니다. 하지만 수백만 명의 사람들과 몇 년의 시간을 합쳐보면, 대규모 공격의 심각한 위험이 존재하며 그 결과는 (사망자가 수백만 명 이상에 달할 수 있을 정도로) 매우 가혹할 것이므로, 이를 방지하기 위해 진지한 조치를 취하는 것 외에는 선택의 여지가 없다고 믿습니다.
방어책
그렇다면 이러한 위험에 어떻게 대응해야 할까요? 저는 우리가 할 수 있는 세 가지 일이 있다고 봅니다. 첫째, AI 기업은 모델이 생물 무기 생산을 돕지 못하도록 가드레일을 설치할 수 있습니다. Anthropic은 이를 매우 적극적으로 수행하고 있습니다. 주로 고수준의 원칙과 가치에 집중하는 Claude의 헌법에는 소수의 구체적이고 단호한 금지 사항이 있으며, 그중 하나가 생물학적(또는 화학적, 핵, 방사능) 무기 생산을 돕는 것과 관련이 있습니다. 하지만 모든 모델은 탈옥될 수 있으며, 따라서 두 번째 방어선으로서 우리는 (우리 테스트 결과 모델들이 위험을 초래할 수 있는 임계값에 가까워지기 시작한 2025년 중반부터) 생물 무기 관련 출력을 구체적으로 감지하고 차단하는 분류기(classifier)를 구현했습니다. 우리는 정기적으로 이러한 분류기를 업그레이드하고 개선하며, 정교한 적대적 공격에 대해서도 일반적으로 매우 견고하다는 것을 발견했습니다.25 25 가벼운 탈옥 시도자들은 모델이 바이러스의 게놈 서열과 같은 특정한 정보 하나를 출력하게 만들었을 때 이러한 분류기를 무력화했다고 믿기도 합니다. 하지만 제가 앞서 설명했듯이, 우리가 우려하는 위협 모델은 생물 무기 생산 과정의 구체적이고 모호한 단계들에 대해 몇 주 또는 몇 달에 걸쳐 이루어지는 단계별 대화식 조언이며, 이것이 우리 분류기가 방어하고자 하는 대상입니다. (우리는 종종 우리의 연구를 "범용(universal)" 탈옥을 찾는 것으로 묘사합니다. 이는 특정하거나 좁은 맥락에서만 작동하는 것이 아니라 모델의 행동을 광범위하게 열어젖히는 것을 의미합니다.)
이러한 분류기는 모델 서비스 비용을 눈에 띄게 증가시키며(일부 모델에서는 전체 추론 비용의 5%에 육박함), 따라서 우리의 마진을 깎아 먹지만, 우리는 이를 사용하는 것이 옳은 일이라고 느낍니다.
다행히도 일부 다른 AI 기업들도 분류기를 구현했습니다. 하지만 모든 기업이 그런 것은 아니며, 기업들이 분류기를 유지하도록 강제하는 규정도 없습니다. 저는 시간이 흐르면서 기업들이 분류기를 제거함으로써 비용을 낮추고 배신할 수 있는 죄수의 딜레마가 발생할 것을 우려합니다. 이는 다시 한번 Anthropic이나 다른 단일 기업의 자발적인 조치만으로는 해결할 수 없는 전형적인 부정적 외부효과 문제입니다.26 26 비록 우리는 분류기를 더 효율적으로 만들기 위한 연구에 계속 투자할 것이며, 기업들이 이러한 진보를 서로 공유하는 것이 타당할 수도 있습니다.
하지만 궁극적으로 방어에는 정부의 조치가 필요할 수 있으며, 이것이 우리가 할 수 있는 두 번째 일입니다. 이에 대한 제 견해는 자율성 위험을 해결하는 것과 같습니다. 투명성 요건에서 시작해야 합니다.27 27 분명히 말씀드리자면, 저는 기업들이 차단하고 있는 생물 무기 생산의 구체적인 단계에 대한 기술적 세부 사항을 공개해야 한다고 생각하지 않으며, 지금까지 통과된 투명성 입법(SB 53 및 RAISE)은 이 문제를 고려하고 있습니다.
이는 경제 활동을 강압적인 방식으로 방해하지 않으면서 사회가 위험을 측정, 모니터링 및 공동으로 방어할 수 있도록 돕습니다. 그런 다음 더 명확한 위험 임계값에 도달하면, 이러한 위험을 더 정밀하게 겨냥하고 부수적 피해 가능성이 낮은 입법을 초안할 수 있습니다. 생물 무기의 구체적인 사례에서, 저는 그러한 정밀한 입법을 위한 시기가 곧 다가오고 있다고 생각합니다. Anthropic과 다른 기업들은 생물학적 위험의 성격과 기업들이 이를 방어하기 위해 요구하는 것이 무엇이 합리적인지에 대해 점점 더 많이 배우고 있기 때문입니다. 이러한 위험을 완전히 방어하려면 지정학적 적대국과도 국제적으로 협력해야 할 수도 있지만, 생물 무기 개발을 금지하는 조약이라는 선례가 있습니다. 저는 대체로 AI에 대한 대부분의 국제 협력에 대해 회의적이지만, 이것은 글로벌 억제를 달성할 가능성이 있는 좁은 분야 중 하나일 수 있습니다. 독재 국가조차도 대규모 생물 테러 공격을 원하지는 않기 때문입니다.
마지막으로, 우리가 취할 수 있는 세 번째 대책은 생물학적 공격 그 자체에 대한 방어 수단을 개발하는 것입니다. 여기에는 조기 감지를 위한 모니터링 및 추적, 공기 정화 연구 개발(예: 원자외선(far-UVC) 소독)에 대한 투자, 공격에 대응하고 적응할 수 있는 신속한 백신 개발, 더 나은 개인 보호 장비(PPE),28 그리고 가장 가능성 높은 생물학적 제제에 대한 치료법이나 예방 접종이 포함될 수 있습니다. 28 또 다른 관련 아이디어는 정부가 비상시에 미리 합의된 가격으로 장비를 구매하겠다고 사전에 약속함으로써 PPE, 인공호흡기 및 생물학적 공격 대응에 필요한 기타 필수 장비의 비축을 장려하는 "회복력 시장(resilience markets)"입니다. 이는 공급업체가 보상 없이 정부에 압수당할 것을 두려워하지 않고 그러한 장비를 비축하도록 인센티브를 제공합니다.
특정 바이러스나 변이에 대응하도록 설계할 수 있는 mRNA 백신은 이 분야에서 가능한 것의 초기 사례입니다. Anthropic은 이 문제에 대해 바이오테크 및 제약 회사들과 협력하게 되어 기쁩니다. 하지만 불행히도 방어 측면에서의 기대치는 제한적이어야 한다고 생각합니다. 생물학에서는 공격과 방어 사이에 비대칭성이 존재합니다. 제제는 스스로 빠르게 퍼지는 반면, 방어는 수많은 사람에 걸쳐 탐지, 백신 접종 및 치료가 매우 신속하게 조직되어야 하기 때문입니다. 대응이 번개처럼 빠르지 않는 한(그런 경우는 드뭅니다), 대응이 가능해지기 전에 이미 많은 피해가 발생할 것입니다. 미래의 기술적 개선이 이 균형을 방어에 유리하게 바꿀 수도 있겠지만(그리고 우리는 분명 그러한 기술적 진보를 개발하는 데 AI를 활용해야 합니다), 그때까지는 예방적 안전장치가 우리의 주요 방어선이 될 것입니다. 여기서 사이버 공격에 대해 짧게 언급할 가치가 있습니다. 생물학적 공격과 달리 AI 주도 사이버 공격은 실제로 야생에서 발생했으며, 대규모 및 국가 지원 스파이 활동을 포함합니다. 우리는 이러한 공격이 모델이 급격히 발전함에 따라 더욱 유능해질 것으로 예상하며, 결국 사이버 공격이 수행되는 주요 방식이 될 것입니다. 저는 AI 주도 사이버 공격이 전 세계 컴퓨터 시스템의 무결성에 전례 없는 심각한 위협이 될 것으로 예상하며, Anthropic은 이러한 공격을 차단하고 궁극적으로 신뢰할 수 있게 방지하기 위해 매우 열심히 노력하고 있습니다. 제가 생물학만큼 사이버에 집중하지 않은 이유는 (1) 사이버 공격은 사람을 죽일 가능성이 훨씬 낮고, 적어도 생물학적 공격 규모는 아니며, (2) 우리가 적절히 투자한다면 방어가 AI 공격을 따라잡거나(심지어 이상적으로는 앞지를) 수 있다는 희망이 적어도 존재하기 때문에 공격-방어 균형이 더 다루기 쉬울 수 있기 때문입니다. 비록 생물학이 현재 가장 심각한 공격 벡터이지만, 다른 많은 벡터가 존재하며 더 위험한 벡터가 나타날 수도 있습니다. 일반적인 원칙은 대책이 없다면 AI가 점점 더 큰 규모의 파괴적 활동에 대한 장벽을 지속적으로 낮출 가능성이 높으며, 인류는 이 위협에 대해 진지한 대응이 필요하다는 것입니다.
3. 혐오스러운 장치
권력 장악을 위한 오용
이전 섹션에서는 개인과 소규모 조직이 "데이터 센터 안의 천재들의 국가"의 작은 하위 집합을 포섭하여 대규모 파괴를 일으킬 위험에 대해 논의했습니다. 하지만 우리는—아마도 실질적으로 더 많이—더 크고 자리를 잡은 행위자들에 의한 권력을 휘두르거나 장악하기 위한 AI 오용에 대해서도 걱정해야 합니다.29 29 왜 권력 장악에 대해서는 거대 행위자를, 파괴에 대해서는 소규모 행위자를 더 걱정할까요? 역학이 다르기 때문입니다. 권력 장악은 한 행위자가 다른 모든 이를 제압할 만큼 충분한 힘을 모을 수 있는지에 관한 것이므로, 우리는 가장 강력한 행위자나 AI에 가장 가까운 이들을 걱정해야 합니다. 반면 파괴는 방어하는 것이 일으키는 것보다 훨씬 어렵다면 적은 힘을 가진 이들에 의해서도 자행될 수 있습니다. 그렇다면 그것은 가장 수많은 위협으로부터 방어하는 게임이 되며, 그 위협은 소규모 행위자일 가능성이 높습니다.
저는 자비로운 기계에서 권위주의 정부가 강력한 AI를 사용하여 시민들을 감시하거나 억압함으로써 개혁이나 전복이 극도로 어려운 방식을 만들 가능성에 대해 논의했습니다. 현재의 독재 국가는 명령을 수행할 인간이 필요하다는 점에 의해 억압의 정도가 제한되며, 인간은 종종 얼마나 비인도적일 수 있는지에 대한 한계를 가지고 있습니다. 하지만 AI 기반 독재 국가는 그러한 한계가 없을 것입니다.
더 나쁜 것은, 국가들이 AI에서의 우위를 이용해 다른 국가에 대한 권력을 획득할 수도 있다는 점입니다. 만약 "천재들의 국가" 전체가 단순히 단일 (인간) 국가의 군사 장치에 의해 소유되고 통제되며, 다른 국가들이 동등한 능력을 갖추지 못한다면, 그들이 어떻게 스스로를 방어할 수 있을지 알기 어렵습니다. 그들은 모든 단계에서 허를 찔릴 것이며, 이는 인간과 쥐 사이의 전쟁과 비슷할 것입니다. 이 두 가지 우려를 합치면 전 지구적 전체주의 독재라는 소름 끼치는 가능성에 도달하게 됩니다. 분명히 이러한 결과를 막는 것이 우리의 최우선 과제 중 하나여야 합니다.
AI가 독재를 가능하게 하고, 공고히 하며, 확장할 수 있는 방법은 많지만, 제가 가장 걱정하는 몇 가지를 나열해 보겠습니다. 이러한 애플리케이션 중 일부는 정당한 방어적 용도가 있으며, 제가 절대적인 의미에서 그것들에 반대하는 것은 아닙니다. 그럼에도 불구하고 그것들이 구조적으로 독재 국가에 유리하게 작용하는 경향이 있다는 점을 우려합니다.
- 완전 자율 무기. 강력한 AI에 의해 국지적으로 제어되고, 훨씬 더 강력한 AI에 의해 전 세계적으로 전략적으로 조율되는 수백만 또는 수십억 개의 완전 자동화된 무장 드론 군단은 무적의 군대가 될 수 있습니다. 이는 세계의 어떤 군대도 격파할 수 있을 뿐만 아니라, 모든 시민을 따라다님으로써 국가 내부의 반대 세력을 억압할 수도 있습니다. 러시아-우크라이나 전쟁의 전개는 드론 전쟁이 이미 우리 곁에 와 있다는 사실을 일깨워 줍니다(비록 아직 완전 자율은 아니며 강력한 AI로 가능할 것의 아주 작은 부분에 불과하지만 말입니다). 강력한 AI의 연구 개발은 한 국가의 드론을 다른 국가의 드론보다 훨씬 우수하게 만들고, 제조 속도를 높이며, 전자 공격에 대한 저항력을 높이고, 기동성을 개선하는 등의 일을 할 수 있습니다. 물론 이러한 무기는 민주주의 수호에도 정당하게 사용될 수 있습니다. 그것들은 우크라이나 방어에 핵심적이었으며 대만 방어에도 핵심이 될 것입니다. 하지만 그것들은 휘두르기에 위험한 무기입니다. 우리는 독재 국가의 손에 들린 그것들을 걱정해야 할 뿐만 아니라, 그것들이 너무나 강력하고 책임 소재가 불분명하기 때문에 민주 정부가 권력을 장악하기 위해 자국민에게 그것들을 돌릴 위험이 크게 증가한다는 점도 걱정해야 합니다.
- AI 감시. 충분히 강력한 AI는 아마도 세계의 어떤 컴퓨터 시스템도 침해할 수 있을 것이며,30 그렇게 얻은 접근 권한을 사용하여 세계의 모든 전자 통신(또는 녹음 장치를 구축하거나 징발할 수 있다면 모든 대면 대화까지도)을 읽고 이해할 수 있을 것입니다. 정부에 반대하는 모든 사람의 완전한 목록을 생성하는 것이 무서울 정도로 그럴듯해 보일 수 있습니다. 비록 그 반대가 그들이 말하거나 행동하는 어떤 것에서도 명시적이지 않더라도 말입니다. 수백만 명의 수십억 건의 대화를 살펴보는 강력한 AI는 대중의 정서를 측정하고, 불충의 싹이 형성되는 것을 감지하여 그것이 자라기 전에 짓밟을 수 있습니다. 이는 오늘날 중국 공산당(CCP)에서도 볼 수 없는 규모의 진정한 파놉티콘(panopticon)의 부과로 이어질 수 있습니다.
30 이는 사이버 공격에서 공격과 방어가 생물 무기보다 더 균형 잡힐 수 있다는 제 주장과 긴장 관계에 있는 것처럼 들릴 수 있지만, 여기서 제 걱정은 한 국가의 AI가 세계에서 가장 강력하다면 기술 자체가 본질적인 공격-방어 균형을 가지고 있더라도 다른 국가들이 방어할 수 없을 것이라는 점입니다.
- AI 프로파간다. 오늘날의 "AI 사이코패스(AI psychosis)"나 "AI 여자친구" 현상은 현재 수준의 지능에서도 AI 모델이 사람들에게 강력한 심리적 영향을 미칠 수 있음을 시사합니다. 사람들의 일상생활에 훨씬 더 깊이 박혀 있고 그들을 잘 알고 있으며, 수개월 또는 수년에 걸쳐 그들을 모델링하고 영향을 미칠 수 있는 훨씬 더 강력한 버전의 모델들은 본질적으로 많은(대부분의?) 사람을 원하는 이데올로기나 태도로 세뇌할 수 있을 것입니다. 그리고 이는 대부분의 인구가 반란을 일으킬 만한 수준의 억압에 직면해서도 충성을 보장하고 반대를 억제하려는 파렴치한 지도자에 의해 고용될 수 있습니다. 오늘날 사람들은 예를 들어 아이들을 겨냥한 중국 공산당의 프로파간다로서 틱톡(TikTok)의 잠재적 영향력에 대해 많이 걱정합니다. 저도 그것을 걱정하지만, 수년에 걸쳐 당신을 알게 되고 당신에 대한 지식을 사용하여 당신의 모든 의견을 형성하는 개인화된 AI 에이전트는 이보다 훨씬 더 강력할 것입니다.
- 전략적 의사 결정. 데이터 센터 안의 천재들의 국가는 국가, 집단 또는 개인에게 지정학적 전략을 조언하는 데 사용될 수 있습니다. 이를 "가상 비스마르크(virtual Bismarck)"라고 부를 수 있을 것입니다. 그것은 권력 장악을 위한 위의 세 가지 전략을 최적화할 수 있을 뿐만 아니라, 아마도 제가 생각하지 못한(하지만 천재들의 국가는 생각할 수 있는) 수많은 다른 전략을 개발할 수도 있을 것입니다. 외교, 군사 전략, 연구 개발, 경제 전략 및 기타 많은 분야가 강력한 AI에 의해 그 효율성이 실질적으로 증대될 가능성이 높습니다. 이러한 기술 중 상당수는 민주주의 국가가 독재 국가에 맞서 스스로를 방어하기 위한 최선의 전략에 접근하기를 원한다는 점에서 민주주의 국가에 정당하게 도움이 될 것입니다. 하지만 누구의 손에서든 오용될 잠재력은 여전히 남아 있습니다.
무엇을 걱정하는지 설명했으니, 이제 누구를 걱정하는지로 넘어가 보겠습니다. 저는 AI에 가장 많이 접근할 수 있거나, 가장 큰 정치적 권력에서 시작하거나, 기존의 억압 역사를 가진 실체들을 걱정합니다. 심각도 순으로 나열하자면 다음과 같습니다.
- 중국 공산당(CCP). 중국은 AI 역량 면에서 미국에 버금가는 2위이며, 미국의 역량을 추월할 가능성이 가장 높은 국가입니다. 그들의 정부는 현재 독재 체제이며 하이테크 감시 국가를 운영하고 있습니다. 그들은 이미 (위구르족 억압을 포함하여) AI 기반 감시를 배치했으며, (수많은 다른 국제적 프로파간다 노력 외에도) 틱톡을 통해 알고리즘 프로파간다를 고용하고 있는 것으로 여겨집니다. 그들은 제가 위에서 제시한 AI 기반 전체주의 악몽으로 가는 가장 명확한 경로를 가지고 있습니다. 그것은 중국 내부뿐만 아니라 중국 공산당이 감시 기술을 수출하는 다른 독재 국가들 내에서도 기본값이 될 수 있습니다. 저는 중국 공산당이 AI에서 주도권을 잡는 위협과 이를 방지해야 하는 실존적 명령에 대해 자주 써왔습니다. 이것이 그 이유입니다. 분명히 말씀드리자면, 저는 중국에 대한 적개심 때문에 중국을 지목하는 것이 아닙니다. 중국은 AI 능력, 독재 정부, 하이테크 감시 국가를 가장 잘 결합한 국가일 뿐입니다. 오히려 중국 공산당의 AI 기반 억압으로 인해 가장 고통받을 가능성이 높은 이들은 중국인 자신들이며, 그들은 정부의 행동에 목소리를 낼 수 없습니다. 저는 중국인들을 깊이 존경하며 중국 내부의 많은 용감한 반체제 인사들과 그들의 자유를 위한 투쟁을 지지합니다.
- AI 경쟁력이 있는 민주주의 국가들. 제가 위에서 썼듯이, 민주주의 국가는 AI 기반 군사 및 지정학적 도구에 정당한 이해관계를 가지고 있습니다. 민주 정부가 독재 국가의 이러한 도구 사용에 대응할 수 있는 최선의 기회를 제공하기 때문입니다. 광범위하게 말해, 저는 AI 시대에 독재 국가를 물리치는 데 필요한 도구로 민주주의 국가를 무장시키는 것을 지지합니다. 저는 다른 방법이 없다고 생각합니다. 하지만 우리는 민주 정부 자체에 의한 이러한 기술의 남용 가능성을 무시할 수 없습니다. 민주주의 국가는 일반적으로 군사 및 정보 장치가 자국민을 향해 돌아가는 것을 방지하는 안전장치를 가지고 있지만,31 AI 도구는 운영하는 데 아주 적은 인원만 필요하기 때문에 이러한 안전장치와 이를 뒷받침하는 규범을 우회할 잠재력이 있습니다. 또한 일부 민주주의 국가에서 이러한 안전장치 중 일부가 이미 점진적으로 침식되고 있다는 점도 주목할 가치가 있습니다. 따라서 우리는 민주주의 국가를 AI로 무장시켜야 하지만, 신중하고 한계 내에서 그렇게 해야 합니다. 그들은 독재 국가와 싸우기 위해 필요한 면역 체계이지만, 면역 체계와 마찬가지로 우리를 공격하여 위협이 될 위험이 존재하기 때문입니다.
- 대규모 데이터 센터를 보유한 비민주적 국가들. 중국을 제외한 대부분의 민주적이지 않은 정부를 가진 국가들은 프런티어 AI 모델을 생산하는 기업이 없다는 점에서 주요 AI 플레이어가 아닙니다. 따라서 그들은 일차적인 관심사인 중국 공산당과는 근본적으로 다르고 더 적은 위험을 초래합니다(대부분은 덜 억압적이며, 북한과 같이 더 억압적인 국가들은 유의미한 AI 산업이 전혀 없습니다). 하지만 이러한 국가 중 일부는 (종종 민주주의 국가에서 운영되는 기업들의 구축의 일환으로) 대규모 데이터 센터를 보유하고 있으며, 이는 프런티어 AI를 대규모로 실행하는 데 사용될 수 있습니다(비록 이것이 프런티어를 확장할 능력을 부여하지는 않지만 말입니다). 이와 관련된 어느 정도의 위험이 존재합니다. 이러한 정부들이 원칙적으로 데이터 센터를 몰수하고 그 안의 AI 국가를 자신들의 목적을 위해 사용할 수 있기 때문입니다. 저는 AI를 직접 개발하는 중국과 같은 국가들에 비하면 덜 걱정되지만, 염두에 두어야 할 위험입니다.32
32 또한 분명히 말씀드리자면, 다양한 거버넌스 구조를 가진 국가에 대규모 데이터 센터를 구축하는 것에 대한 몇 가지 논거가 있습니다. 특히 민주주의 국가의 기업들이 이를 통제한다면 더욱 그렇습니다. 그러한 구축은 원칙적으로 민주주의 국가들이 더 큰 위협인 중국 공산당과 더 잘 경쟁하도록 도울 수 있습니다. 또한 저는 그러한 데이터 센터가 아주 크지 않는 한 큰 위험을 초래하지 않는다고 생각합니다. 하지만 균형적으로 볼 때, 제도적 안전장치와 법치주의 보호가 덜 확립된 국가에 매우 큰 데이터 센터를 배치할 때는 주의가 필요하다고 생각합니다.
- AI 기업들. AI 기업의 CEO로서 이런 말을 하는 것이 다소 어색하지만, 저는 다음 단계의 위험이 사실 AI 기업 그 자체라고 생각합니다. AI 기업은 대규모 데이터 센터를 통제하고, 프런티어 모델을 훈련하며, 해당 모델을 사용하는 방법에 대한 최고의 전문 지식을 보유하고 있으며, 어떤 경우에는 수천만 또는 수억 명의 사용자와 매일 접촉하고 영향을 미칠 가능성이 있습니다. 그들에게 부족한 주된 것은 국가의 정당성과 인프라이므로, AI 독재의 도구를 구축하는 데 필요한 많은 일들이 AI 기업에게는 불법이거나 최소한 대단히 의심스러울 것입니다. 하지만 그중 일부는 불가능하지 않습니다. 예를 들어, 그들은 자신들의 AI 제품을 사용하여 거대한 소비자 사용자 층을 세뇌할 수 있으며, 대중은 이것이 나타내는 위험에 경계해야 합니다. 저는 AI 기업의 거버넌스가 많은 조사를 받아야 한다고 생각합니다.
이러한 위협의 심각성에 대한 몇 가지 가능한 반론이 있으며, 저는 그것들을 믿고 싶습니다. AI 기반 권위주의는 저를 공포에 떨게 하기 때문입니다. 이러한 반론 중 일부를 살펴보고 대응해 볼 가치가 있습니다.
33 이것은 물론 강력한 AI에 대해 더 견고해질 가능성을 높이기 위해 핵 억제력의 보안을 개선해야 한다는 논거이기도 하며, 핵무기를 보유한 민주주의 국가들은 이를 수행해야 합니다. 하지만 우리는 강력한 AI가 무엇을 할 수 있을지, 혹은 어떤 방어책이 효과가 있을지 알지 못하므로, 이러한 조치들이 반드시 문제를 해결할 것이라고 가정해서는 안 됩니다. 대안적으로, 국가를 장악하는 것이 AI 감시와 AI 프로파간다만으로도 가능하며, 무슨 일이 일어나고 있는지 명확하고 핵 보복이 적절할 만한 순간이 결코 나타나지 않을 수도 있습니다. 어쩌면 이러한 것들이 불가능하고 핵 억제력이 여전히 효과적일 수도 있지만, 위험을 감수하기에는 판돈이 너무 큽니다.34 34 또한 핵 억제력이 여전히 효과적이더라도, 공격 국가가 우리의 허세를 시험해 보기로 결정할 위험도 있습니다. 드론 군단이 우리를 정복할 실질적인 위험이 있더라도 우리가 드론 군단에 대응하기 위해 핵무기를 기꺼이 사용할지는 불분명하기 때문입니다. 드론 군단은 핵 공격보다는 덜 심각하지만 재래식 공격보다는 더 심각한 새로운 형태일 수 있습니다. 또는 AI 시대에 핵 억제력의 효과에 대한 서로 다른 평가가 핵 갈등의 게임 이론을 불안정한 방식으로 변화시킬 수도 있습니다.
두 번째 가능한 반론은 이러한 독재의 도구들에 대해 우리가 취할 수 있는 대책이 있을 수 있다는 것입니다. 우리는 우리만의 드론으로 드론에 대응할 수 있고, 사이버 방어는 사이버 공격과 함께 개선될 것이며, 사람들을 프로파간다로부터 면역시키는 방법이 있을 수도 있습니다. 제 대답은 이러한 방어는 오직 그에 필적하는 강력한 AI가 있어야만 가능하다는 것입니다. 그에 필적할 만큼 똑똑하고 수많은 데이터 센터 안의 천재들의 국가라는 대항 세력이 없다면, 드론의 품질이나 수량을 맞출 수 없을 것이고, 사이버 방어가 사이버 공격을 앞지를 수도 없을 것입니다. 따라서 대책의 문제는 강력한 AI에서의 세력 균형 문제로 귀결됩니다. 여기서 저는 강력한 AI의 재귀적 또는 자기 강화적 특성(이 에세이의 서두에서 논의한)을 우려합니다. 즉, 각 세대의 AI가 다음 세대의 AI를 설계하고 훈련하는 데 사용될 수 있다는 점입니다. 이는 강력한 AI의 현재 선두 주자가 리드를 벌릴 수 있고 따라잡기 어려울 수 있는 폭주하는 우위의 위험으로 이어집니다. 우리는 권위주의 국가가 이 루프에 먼저 도달하지 않도록 해야 합니다.
더 나아가, 세력 균형이 달성되더라도 세상이 1984에서처럼 독재 세력권으로 쪼개질 위험이 여전히 존재합니다. 여러 경쟁 세력이 각각 강력한 AI 모델을 보유하고 있고 그 누구도 다른 세력을 제압할 수 없더라도, 각 세력은 여전히 내부적으로 자국민을 억압할 수 있으며 전복시키기 매우 어려울 것입니다(국민들은 스스로를 방어할 강력한 AI가 없기 때문입니다). 따라서 AI 기반 독재가 단일 국가의 세계 정복으로 이어지지 않더라도 이를 방지하는 것이 중요합니다.
방어책
이러한 광범위한 독재 도구와 잠재적 위협 행위자들로부터 어떻게 방어해야 할까요? 이전 섹션에서와 마찬가지로 우리가 할 수 있는 몇 가지 일이 있다고 생각합니다. 첫째, 우리는 절대로 중국 공산당에 칩, 칩 제조 도구 또는 데이터 센터를 팔아서는 안 됩니다. 칩과 칩 제조 도구는 강력한 AI로 가는 단 하나의 가장 큰 병목 현상이며, 이를 차단하는 것은 단순하지만 극도로 효과적인 조치이며, 아마도 우리가 취할 수 있는 가장 중요한 단일 행동일 것입니다. 중국 공산당에 AI 전체주의 국가를 건설하고 어쩌면 우리를 군사적으로 정복할 도구를 파는 것은 말이 되지 않습니다. "우리의 기술 스택을 전 세계에 퍼뜨리는 것"이 "미국이 승리"하게 해준다는 식의 복잡한 논리들이 이러한 판매를 정당화하기 위해 만들어집니다. 제 견해로는 이는 북한에 핵무기를 팔면서 미사일 케이스가 보잉사 제품이니 미국이 "승리"하고 있다고 자랑하는 것과 같습니다. 중국은 프런티어 칩을 대량으로 생산하는 능력에서 미국보다 몇 년 뒤처져 있으며, 데이터 센터 안의 천재들의 국가를 구축하기 위한 임계 기간은 바로 그 향후 몇 년 이내일 가능성이 매우 높습니다.35 35 분명히 말씀드리자면, 저는 강력한 AI로 가는 타임라인이 실질적으로 더 길더라도 중국에 칩을 팔지 않는 것이 올바른 전략이라고 믿을 것입니다. 우리는 중국인들이 미국산 칩에 "중독"되게 만들 수 없습니다. 그들은 어떻게든 자신들의 토착 칩 산업을 발전시키기로 결심했기 때문입니다. 그들이 그렇게 하는 데는 수년이 걸릴 것이며, 우리가 칩을 팔아서 하는 일은 그 중요한 기간 동안 그들에게 큰 힘을 실어주는 것뿐입니다.
이 임계 기간 동안 그들의 AI 산업에 거대한 부스트를 줄 이유가 없습니다.
둘째, AI를 사용하여 민주주의 국가들이 독재 국가에 저항할 수 있도록 힘을 실어주는 것이 타당합니다. 이것이 Anthropic이 미국과 그 민주적 동맹국들의 정보 및 국방 커뮤니티에 AI를 제공하는 것을 중요하게 생각하는 이유입니다. 우크라이나와 (사이버 공격을 받는) 대만과 같이 공격받는 민주주의 국가를 방어하는 것과, 민주주의 국가들이 정보 기관을 사용하여 독재 국가를 내부에서 교란하고 약화시킬 수 있도록 힘을 실어주는 것이 특히 높은 우선순위로 보입니다. 어느 수준에서 독재적 위협에 대응하는 유일한 방법은 군사적으로 그들을 맞추고 능가하는 것입니다. 미국과 그 민주적 동맹국들의 연합이 강력한 AI에서 우위를 점한다면, 독재 국가로부터 스스로를 방어할 뿐만 아니라 그들을 억제하고 그들의 AI 전체주의적 남용을 제한할 수 있는 위치에 서게 될 것입니다.
셋째, 민주주의 국가 내부에서의 AI 남용에 대해 단호한 선을 그어야 합니다. 우리 정부가 AI로 할 수 있는 일에 한계가 있어야 하며, 그래야 그들이 권력을 장악하거나 자국민을 억압하지 못합니다. 제가 생각해 낸 공식은 우리를 독재적 적대국과 더 비슷하게 만들 수 있는 방식들을 제외한 모든 방식으로 국가 방위를 위해 AI를 사용해야 한다는 것입니다.
어디에 선을 그어야 할까요? 이 섹션의 서두에 있는 목록에서 두 가지 항목—국내 대량 감시를 위한 AI 사용과 대량 프로파간다—은 저에게 완전히 불법적인 명백한 레드라인으로 보입니다. 어떤 이들은 미국에서 국내 대량 감시는 이미 수정헌법 제4조에 따라 불법이므로 아무것도 할 필요가 없다고 주장할 수도 있습니다. 하지만 AI의 급격한 발전은 우리의 기존 법적 프레임워크가 제대로 대처하도록 설계되지 않은 상황을 만들 수 있습니다. 예를 들어, 미국 정부가 모든 공공 대화(예: 사람들이 길모퉁이에서 서로 나누는 말)를 대규모로 녹음하는 것은 위헌이 아닐 가능성이 높으며, 이전에는 이 방대한 양의 정보를 분류하기 어려웠겠지만, AI를 사용하면 이 모든 것을 전사하고 해석하고 삼각 측량하여 많은 혹은 대부분의 시민의 태도와 충성도에 대한 그림을 그릴 수 있습니다. 저는 AI 기반 남용에 대해 더 강력한 가드레일을 부과하는 시민 자유 중심의 입법(또는 어쩌면 헌법 개정까지도)을 지지할 것입니다.
다른 두 항목—완전 자율 무기와 전략적 의사 결정을 위한 AI—은 민주주의를 수호하는 데 정당한 용도가 있으면서도 남용되기 쉽기 때문에 선을 긋기가 더 어렵습니다. 여기서 제가 생각하는 정당한 조치는 남용을 방지하기 위한 가드레일과 결합된 극도의 주의와 조사입니다. 저의 주된 공포는 "버튼 위의 손가락"의 수가 너무 적어서, 한 명 혹은 소수의 사람들이 자신의 명령을 수행하기 위해 다른 어떤 인간의 협력도 필요로 하지 않은 채 본질적으로 드론 군단을 운영할 수 있게 되는 것입니다. AI 시스템이 더 강력해짐에 따라, 우리는 그것들이 오용되지 않도록 보장하기 위해 아마도 행정부 이외의 정부 부처를 포함하는 더 직접적이고 즉각적인 감시 메커니즘이 필요할 수도 있습니다. 저는 특히 완전 자율 무기에 대해 극도의 주의를 가지고 접근해야 하며,36 적절한 안전장치 없이 성급하게 사용해서는 안 된다고 생각합니다. 36 분명히 말씀드리자면, 오늘날 우크라이나와 대만에서 사용되는 것의 대부분은 완전 자율 무기가 아닙니다. 그것들이 오고는 있지만 아직 여기에 있지는 않습니다.
넷째, 민주주의 국가 내에서의 AI 남용에 대해 단호한 선을 그은 후, 그 선례를 사용하여 강력한 AI의 최악의 남용에 대한 국제적 금기(taboo)를 만들어야 합니다. 저는 현재의 정치적 바람이 국제 협력과 국제 규범에 반대하는 방향으로 돌아섰다는 점을 인식하고 있지만, 이것은 우리가 그것들을 절실히 필요로 하는 경우입니다. 세계는 독재자의 손에 들린 강력한 AI의 어두운 잠재력을 이해해야 하며, AI의 특정 용도가 그들의 자유를 영구적으로 훔치고 탈출할 수 없는 전체주의 국가를 부과하려는 시도와 다름없음을 인식해야 합니다. 저는 심지어 어떤 경우에는 강력한 AI를 이용한 대규모 감시, 강력한 AI를 이용한 대량 프로파간다, 그리고 특정 유형의 공격적 용도의 완전 자율 무기가 반인도적 범죄로 간주되어야 한다고 주장하고 싶습니다. 더 일반적으로, AI 기반 전체주의와 그 모든 도구 및 수단에 대한 강력한 규범이 절실히 필요합니다.
이보다 더 강력한 버전의 입장도 가능합니다. 강력한 AI 이후의 시대에 독재는 사람들이 받아들일 수 있는 정부 형태가 단순히 아니라는 것입니다. 산업 혁명과 함께 봉건제가 유지될 수 없게 되었듯이, AI 시대는 인류가 좋은 미래를 가지려면 민주주의(그리고 제가 자비로운 기계에서 논의했듯이 AI에 의해 개선되고 활력을 되찾은 민주주의)가 유일하게 실행 가능한 정부 형태라는 결론으로 필연적이고 논리적으로 이어질 수 있습니다.
다섯째이자 마지막으로, AI 기업들을 주의 깊게 지켜봐야 하며, 정부와의 연결성 또한 지켜봐야 합니다. 이는 필요하지만 한계와 경계가 있어야 합니다. 강력한 AI에 구현된 역량의 순수한 양은 주주를 보호하고 사기와 같은 일반적인 남용을 방지하도록 설계된 일반적인 기업 거버넌스가 AI 기업을 관리하는 과업을 감당하기 어렵게 만들 가능성이 높습니다. 또한 기업들이 (아마도 기업 거버넌스의 일부로서) 군사 하드웨어를 사적으로 구축하거나 비축하지 않고, 단일 개인이 책임지지 않는 방식으로 대량의 컴퓨팅 자원을 사용하지 않으며, 자신들의 AI 제품을 자신들에게 유리하게 대중 여론을 조작하는 프로파간다로 사용하지 않겠다는 등의 특정 행동을 하지 않겠다고 공개적으로 약속하는 것도 가치가 있을 수 있습니다.
여기서 위험은 여러 방향에서 오며, 어떤 방향은 다른 방향과 긴장 관계에 있습니다. 유일한 상수는 우리가 "좋은" 행위자들이 "나쁜" 행위자들을 억제할 수 있도록 힘을 실어주는 동시에, 모든 이에게 책임, 규범 및 가드레일을 요구해야 한다는 것입니다.
4. 플레이어 피아노 (Player piano)
경제적 혼란
이전 세 섹션은 본질적으로 강력한 AI가 제기하는 안보 위험에 관한 것이었습니다. AI 자체로 인한 위험, 개인 및 소규모 조직에 의한 오용 위험, 그리고 국가 및 대규모 조직에 의한 오용 위험입니다. 안보 위험을 제쳐두거나 해결되었다고 가정한다면, 다음 질문은 경제적인 것입니다. 이 믿을 수 없는 "인적" 자본의 주입이 경제에 어떤 영향을 미칠까요? 분명히 가장 명백한 효과는 경제 성장을 크게 촉진하는 것입니다. 과학 연구, 생명 공학 혁신, 제조, 공급망, 금융 시스템의 효율성 등의 발전 속도는 거의 확실하게 훨씬 더 빠른 경제 성장률로 이어질 것입니다. 저는 자비로운 기계에서 연간 10~20%의 지속적인 GDP 성장률이 가능할 수 있다고 제안했습니다.
하지만 이것이 양날의 검이라는 점은 명백해야 합니다. 그러한 세상에서 대부분의 기존 인간들의 경제적 전망은 어떠할까요? 새로운 기술은 종종 노동 시장에 충격을 가져오며, 과거에 인간은 항상 그 충격으로부터 회복해 왔습니다. 하지만 저는 이번 충격이 인간의 가능한 모든 능력 범위 중 아주 작은 부분에만 영향을 미쳐 인간이 새로운 과업으로 확장할 여지를 남겼던 이전의 충격들과는 다르다는 점을 우려합니다. AI는 훨씬 더 광범위한 영향을 미치고 훨씬 더 빠르게 발생할 것이며, 따라서 모든 것이 잘 풀리도록 만드는 것이 훨씬 더 어려울까 봐 걱정됩니다.
노동 시장 혼란
제가 우려하는 두 가지 구체적인 문제는 노동 시장 대체와 경제적 권력의 집중입니다. 첫 번째 문제부터 시작해 보겠습니다. 이는 제가 2025년에 매우 공개적으로 경고했던 주제로, 당시 저는 AI가 경제 성장과 과학적 진보를 가속화하는 동시에 향후 15년 내에 모든 신입 화이트칼라 일자리의 절반을 대체할 수 있다고 예측했습니다. 이 경고는 이 주제에 대한 대중적 논쟁을 불러일으켰습니다. 많은 CEO, 기술자, 경제학자들이 저에게 동의했지만, 다른 이들은 제가 "노동량 불변의 오류(lump of labor fallacy)"에 빠졌으며 노동 시장이 어떻게 작동하는지 모른다고 생각했고, 일부는 15년이라는 기간을 보지 못하고 제가 지금 당장 AI가 일자리를 대체하고 있다고 주장한다고 생각했습니다(저는 지금 당장은 그렇지 않다는 점에 동의합니다). 따라서 이러한 오해를 풀기 위해 왜 제가 노동 시장 대체를 걱정하는지 자세히 살펴볼 가치가 있습니다. 기준으로서, 기술의 발전이 노동 시장에 보통 어떻게 반응하는지 이해하는 것이 유용합니다. 새로운 기술이 등장하면, 주어진 인간 업무의 조각들을 더 효율적으로 만드는 것부터 시작합니다. 예를 들어, 산업 혁명 초기에 업그레이드된 쟁기와 같은 기계들은 인간 농부들이 업무의 일부 측면에서 더 효율적이 되도록 도왔습니다. 이는 농부들의 생산성을 향상시켰고, 그들의 임금을 높였습니다.
다음 단계에서는 업무의 일부가 기계에 의해 완전히 수행될 수 있게 됩니다. 예를 들어 탈곡기나 파종기의 발명과 같습니다. 이 단계에서 인간은 업무의 점점 더 적은 비율을 수행하게 되지만, 그들이 수행하는 노동은 기계의 노동과 상호 보완적이기 때문에 점점 더 큰 레버리지를 갖게 되며, 그들의 생산성은 계속해서 상승합니다. 제번스의 역설(Jevons’ paradox)에서 설명하듯이, 농부들의 임금과 어쩌면 농부의 수조차 계속해서 증가할 수 있습니다. 업무의 90%가 기계에 의해 수행되더라도, 인간은 여전히 수행하는 10%의 일을 10배 더 많이 함으로써 동일한 노동량으로 10배 더 많은 산출물을 생산할 수 있습니다. 결국 현대의 콤바인 수확기, 트랙터 및 기타 장비와 같이 기계가 모든 것 혹은 거의 모든 것을 수행하게 됩니다. 이 시점에서 인간의 고용 형태로서의 농업은 정말로 급격한 쇠퇴기에 접어들고, 이는 단기적으로 심각한 혼란을 야기할 수 있습니다. 하지만 농업은 인간이 할 수 있는 유용한 활동 중 하나일 뿐이므로, 사람들은 결국 공장 기계를 조작하는 것과 같은 다른 일자리로 전환합니다. 이는 농업이 사전에 고용의 거대한 비중을 차지했음에도 불구하고 사실입니다. 250년 전 미국인의 90%가 농장에 살았습니다. 유럽에서는 고용의 5060%가 농업 분야였습니다. 이제 그 비율은 해당 지역에서 한 자릿수 초반대에 불과합니다. 노동자들이 산업 일자리(그리고 나중에는 지식 노동 일자리)로 전환했기 때문입니다. 경제는 이전에 노동력의 대부분을 필요로 했던 일을 단 12%만으로 수행할 수 있게 되어, 나머지 노동력이 그 어느 때보다 진보된 산업 사회를 건설할 수 있도록 해방시켜 줍니다. 고정된 "노동량의 덩어리"는 없으며, 단지 더 적은 것으로 더 많은 것을 할 수 있는 끊임없이 확장되는 능력만이 있을 뿐입니다. 단기적인 혼란이 지나가면 사람들의 임금은 GDP 지수와 함께 상승하고 경제는 완전 고용을 유지합니다. AI에서도 상황이 대략 비슷하게 흘러갈 가능성도 있지만, 저는 그렇지 않을 것이라는 쪽에 꽤 강하게 걸겠습니다. 제가 AI가 다를 것이라고 생각하는 몇 가지 이유는 다음과 같습니다.
- 속도. AI의 발전 속도는 이전의 어떤 기술 혁명보다 훨씬 빠릅니다. 예를 들어, 지난 2년 동안 AI 모델은 단 한 줄의 코드를 간신히 완성하는 수준에서, Anthropic의 엔지니어들을 포함한 일부 사람들에게 코드의 전부 혹은 거의 전부를 작성해 주는 수준으로 발전했습니다.37 곧 그들은 소프트웨어 엔지니어의 과업 전체를 엔드 투 엔드로 수행할 수도 있습니다.38 인간이 이러한 변화의 속도에 적응하는 것은 어렵습니다. 주어진 직업이 작동하는 방식의 변화와 새로운 직업으로 전환해야 하는 필요성 모두에 대해서 말입니다. 전설적인 프로그래머들조차 점점 더 자신들이 "뒤처졌다"고 묘사하고 있습니다. AI 코딩 모델이 AI 개발 과업을 점점 더 가속화함에 따라 속도는 오히려 계속해서 빨라질 수 있습니다. 분명히 말씀드리자면, 속도 그 자체가 노동 시장과 고용이 결국 회복되지 않을 것임을 의미하지는 않습니다. 다만 인간과 노동 시장은 반응하고 균형을 맞추는 데 느리기 때문에, 단기적인 전환이 과거의 기술들에 비해 유례없이 고통스러울 것임을 시사합니다.
37 우리의 가장 최근 모델인 Claude Opus 4.5의 시스템 카드를 보면, Opus가 Anthropic에서 자주 실시하는 성능 공학 인터뷰에서 회사 역사상 그 어떤 피면접자보다 더 나은 성과를 냈음을 보여줍니다. 38 "코드의 전부를 작성하는 것"과 "소프트웨어 엔지니어의 과업을 엔드 투 엔드로 수행하는 것"은 매우 다른 일입니다. 소프트웨어 엔지니어는 단순히 코드를 쓰는 것 이상의 일, 즉 테스트, 환경 및 파일과 설치 다루기, 클라우드 컴퓨팅 배포 관리, 제품 반복 개선 등 훨씬 더 많은 일을 하기 때문입니다.
- 인지적 폭. "데이터 센터 안의 천재들의 국가"라는 문구가 시사하듯이, AI는 매우 광범위한 인간의 인지 능력—어쩌면 그 전부—을 갖추게 될 것입니다. 이는 기계화된 농업, 운송, 심지어 컴퓨터와 같은 이전의 기술들과는 매우 다릅니다.39 이로 인해 사람들은 대체된 직업에서 자신에게 잘 맞는 유사한 직업으로 쉽게 전환하기가 더 어려워질 것입니다. 예를 들어, 금융, 컨설팅, 법률 분야의 신입 직종에 필요한 일반적인 지적 능력은 구체적인 지식은 매우 다를지라도 상당히 유사합니다. 이 세 가지 중 하나만 방해하는 기술은 직원들이 다른 두 가지 유사한 대체 직종으로 전환하거나(혹은 학부생들이 전공을 바꾸거나) 할 수 있게 해줍니다. 하지만 (다른 많은 유사한 직업들과 함께) 이 세 가지를 동시에 방해한다면 사람들이 적응하기 더 어려울 수 있습니다. 게다가 단순히 대부분의 기존 직업이 방해받는 것만이 문제가 아닙니다. 그런 일은 이전에도 일어났습니다—농업이 고용의 거대한 비율을 차지했다는 점을 기억하십시오. 하지만 농부들은 비록 그 일이 이전에는 흔하지 않았더라도 상대적으로 유사한 공장 기계 조작 업무로 전환할 수 있었습니다. 반면 AI는 점점 더 인간의 일반적인 인지 프로필과 일치하고 있으며, 이는 AI가 기존 직업이 자동화됨에 따라 보통 만들어지게 될 새로운 직업들에서도 뛰어난 성과를 낼 것임을 의미합니다. 다르게 말하면, AI는 특정한 인간 직업의 대체재가 아니라 인간을 위한 일반적인 노동 대체재입니다.
39 컴퓨터는 어떤 의미에서 범용적이지만, (산술 연산과 같이) 몇몇 분야에서 인간을 크게 능가하면서도 대다수의 인간 인지 능력을 스스로 수행하는 데는 분명히 무능합니다. 물론 AI와 같이 컴퓨터 위에 구축된 것들은 이제 광범위한 인지 능력을 갖추고 있으며, 이것이 이 에세이의 주제입니다.
- 인지 능력에 따른 계층화. 광범위한 과업에 걸쳐 AI는 능력의 사다리 밑바닥에서 꼭대기로 올라가고 있는 것으로 보입니다. 예를 들어 코딩에서 우리 모델은 "평범한 코더" 수준에서 "강력한 코더"를 거쳐 "매우 강력한 코더" 수준으로 발전했습니다.40 우리는 이제 일반적인 화이트칼라 업무에서도 동일한 진행 과정을 보기 시작했습니다. 따라서 우리는 AI가 (재교육을 통해 적응할 수 있는) 특정 기술이나 특정 직종의 사람들에게 영향을 미치는 대신, 특정 내재적 인지 특성, 즉 (변화시키기 더 어려운) 낮은 지적 능력을 가진 사람들에게 영향을 미치는 상황에 처할 위험이 있습니다. 이 사람들이 어디로 갈지, 무엇을 할지 불분명하며, 저는 그들이 실업 상태이거나 매우 낮은 임금을 받는 "하층 계급"을 형성할까 봐 걱정됩니다. 분명히 말씀드리자면, 이와 다소 유사한 일들이 이전에도 일어났습니다—예를 들어 컴퓨터와 인터넷은 일부 경제학자들에 의해 "숙련 편향적 기술 변화(skill-biased technological change)"를 나타내는 것으로 여겨집니다. 하지만 이 숙련 편향성은 제가 AI에서 보게 될 것으로 예상하는 것만큼 극단적이지 않았으며, 임금 불평등 증가에 기여한 것으로 여겨지므로41 딱히 안심이 되는 선례는 아닙니다.
40 분명히 말씀드리자면, AI 모델은 인간과 정확히 같은 강점과 약점 프로필을 가지고 있지 않습니다. 하지만 그들은 또한 모든 차원에서 상당히 균일하게 발전하고 있으므로, 뾰족하거나 고르지 않은 프로필을 갖는 것은 궁극적으로 중요하지 않을 수 있습니다.
- 간극을 메우는 능력. 새로운 기술에 직면했을 때 인간의 직업이 종종 조정되는 방식은 직업에 많은 측면이 있고, 새로운 기술이 비록 인간을 직접 대체하는 것처럼 보일지라도 종종 그 안에 간극이 있다는 점입니다. 누군가 위젯을 만드는 기계를 발명한다면, 인간은 여전히 기계에 원자재를 넣어야 할 수도 있습니다. 비록 그것이 위젯을 수동으로 만드는 노력의 1%만 차지하더라도, 인간 노동자는 단순히 100배 더 많은 위젯을 만들 수 있습니다. 하지만 AI는 급격히 발전하는 기술일 뿐만 아니라 급격히 적응하는 기술이기도 합니다. 매번 모델을 출시할 때마다 AI 기업들은 모델이 무엇을 잘하고 무엇을 못 하는지 신중하게 측정하며, 출시 후에는 고객들도 그러한 정보를 제공합니다. 약점은 현재의 간극을 구현하는 과업들을 수집하고 다음 모델을 위해 그것들을 훈련함으로써 해결될 수 있습니다. 생성형 AI 초기에는 사용자들이 AI 시스템에 특정 약점(예: AI 이미지 모델이 손가락 개수를 틀리게 생성하는 것)이 있음을 알아차렸고 많은 이들이 이러한 약점이 기술에 내재된 것이라고 가정했습니다. 만약 그렇다면 직업 혼란을 제한할 것입니다. 하지만 거의 모든 그러한 약점은 빠르게—종종 불과 몇 달 만에—해결됩니다.
일반적인 회의론적 주장들을 다룰 가치가 있습니다. 첫째, 경제적 확산이 느릴 것이라는 주장이 있습니다. 설령 기저 기술이 대부분의 인간 노동을 수행할 능력이 있더라도, (예를 들어 AI 산업과 거리가 멀고 채택이 느린 산업에서) 경제 전반에 걸친 실제 적용은 훨씬 더 느릴 수 있다는 것입니다. 기술의 느린 확산은 분명히 실재합니다—저는 다양한 기업의 사람들과 대화하며, AI 채택에 수년이 걸릴 곳들이 있습니다. 이것이 제가 비록 기술적으로는 (신입뿐만 아니라) 대부분 혹은 모든 직업을 수행하기에 충분한 강력한 AI를 5년보다 훨씬 짧은 시간 안에 갖게 될 것이라고 의심함에도 불구하고, 신입 화이트칼라 일자리의 50%가 대체될 것이라는 예측 기간을 1~5년으로 잡은 이유입니다. 하지만 확산 효과는 단지 우리에게 시간을 벌어줄 뿐입니다. 그리고 저는 그것이 사람들이 예측하는 것만큼 느릴 것이라고 확신하지 않습니다. 기업의 AI 채택은 기술 자체의 순수한 힘에 힘입어 이전의 어떤 기술보다 훨씬 빠른 속도로 성장하고 있습니다. 또한 전통적인 기업들이 새로운 기술 채택에 느리더라도, 스타트업들이 "접착제" 역할을 하며 채택을 더 쉽게 만들기 위해 생겨날 것입니다. 만약 그것이 작동하지 않는다면, 스타트업들이 단순히 기존 기업들을 직접 무너뜨릴 수도 있습니다. 그것은 특정한 직업이 방해받기보다는 대기업들이 전반적으로 무너지고 훨씬 적은 노동력을 사용하는 스타트업들로 대체되는 세상으로 이어질 수 있습니다. 이는 또한 세계 부의 점점 더 큰 비중이 실리콘 밸리에 집중되는 "지리적 불평등"의 세상으로 이어질 수 있으며, 실리콘 밸리는 나머지 세계보다 다른 속도로 돌아가는 자체적인 경제가 되어 나머지 세계를 뒤처지게 만들 것입니다. 이 모든 결과는 경제 성장에는 훌륭하겠지만—노동 시장이나 뒤처진 사람들에게는 그리 좋지 않을 것입니다.
둘째, 어떤 사람들은 인간의 일자리가 물리적 세계로 이동할 것이라고 말합니다. 이는 AI가 매우 빠르게 발전하고 있는 "인지 노동"의 범주 전체를 피하는 것입니다. 저는 이것이 얼마나 안전할지 잘 모르겠습니다. 많은 물리적 노동은 이미 기계에 의해 수행되고 있거나(예: 제조) 곧 기계에 의해 수행될 것입니다(예: 운전). 또한 충분히 강력한 AI는 로봇의 개발을 가속화하고, 그 로봇들을 물리적 세계에서 제어할 수 있게 될 것입니다. 시간을 좀 벌어줄 수는 있겠지만(그것은 좋은 일입니다), 저는 그것이 많은 시간을 벌어주지는 못할까 봐 걱정됩니다. 그리고 설령 혼란이 인지적 과업에만 국한되더라도, 그것은 여전히 전례 없이 크고 빠른 혼란이 될 것입니다.
셋째, 어쩌면 어떤 과업들은 본질적으로 인간의 손길을 필요로 하거나 그로부터 큰 혜택을 입을 수도 있습니다. 저는 이에 대해 조금 더 불확실하지만, 그것이 제가 위에서 설명한 영향의 대부분을 상쇄하기에 충분할지에 대해서는 여전히 회의적입니다. AI는 이미 고객 서비스에 널리 사용되고 있습니다. 많은 사람이 치료사와 대화하는 것보다 자신의 개인적인 문제에 대해 AI와 대화하는 것이 더 쉽고 AI가 더 인내심이 있다고 보고합니다. 제 여동생이 임신 중 의료 문제로 고생할 때, 그녀는 의료진으로부터 필요한 답변이나 지원을 받지 못하고 있다고 느꼈고, Claude가 더 나은 환자 응대 태도를 가지고 있다고(그리고 문제를 진단하는 데 더 성공적이라고) 느꼈습니다. 인간의 손길이 정말로 중요한 몇몇 과업이 있을 것이라고 확신하지만, 얼마나 많을지는 잘 모르겠습니다—그리고 여기서 우리는 노동 시장의 거의 모든 사람을 위한 일자리를 찾는 것에 대해 이야기하고 있습니다. 넷째, 어떤 이들은 비교 우위가 여전히 인간을 보호할 것이라고 주장할 수도 있습니다. 비교 우위의 법칙에 따르면, AI가 모든 면에서 인간보다 낫더라도 인간과 AI의 기술 프로필 사이의 어떤 상대적인 차이라도 인간과 AI 사이의 거래와 전문화의 근거를 만들어냅니다. 문제는 AI가 말 그대로 인간보다 수천 배 더 생산적이라면 이 논리가 무너지기 시작한다는 점입니다. 아주 작은 거래 비용조차 AI가 인간과 거래할 가치가 없게 만들 수 있습니다. 그리고 인간의 임금은 비록 그들이 기술적으로 제공할 무언가가 있더라도 매우 낮을 수 있습니다. 이 모든 요인들이 해결될 수도 있습니다—노동 시장이 이러한 거대한 혼란에도 적응할 만큼 탄력적일 수도 있습니다. 하지만 결국 적응할 수 있다 하더라도, 위의 요인들은 단기적인 충격이 전례 없는 규모가 될 것임을 시사합니다.
방어책
이 문제에 대해 우리는 무엇을 할 수 있을까요? 저는 몇 가지 제안을 가지고 있으며, 그중 일부는 Anthropic이 이미 하고 있는 일입니다. 첫 번째는 단순히 일자리 대체와 관련하여 무슨 일이 일어나고 있는지에 대한 정확한 데이터를 실시간으로 얻는 것입니다. 경제적 변화가 매우 빠르게 일어날 때는 무슨 일이 일어나고 있는지에 대한 신뢰할 만한 데이터를 얻기 어렵고, 신뢰할 만한 데이터 없이는 효과적인 정책을 설계하기 어렵습니다. 예를 들어, 현재 정부 데이터에는 기업과 산업 전반의 AI 채택에 대한 세밀하고 고빈도인 데이터가 부족합니다. 지난 1년 동안 Anthropic은 산업, 과업, 위치, 그리고 심지어 과업이 자동화되고 있는지 아니면 협업적으로 수행되고 있는지와 같은 것들로 세분화하여 우리 모델의 사용 현황을 거의 실시간으로 보여주는 경제 지수(Economic Index)를 운영하고 공개해 왔습니다. 우리는 또한 이러한 데이터를 해석하고 무엇이 오고 있는지 파악하는 데 도움을 줄 경제 자문 위원회(Economic Advisory Council)를 운영하고 있습니다. 둘째, AI 기업은 기업들과 어떻게 협력할지 선택권이 있습니다. 전통적인 기업들의 비효율성 그 자체가 그들의 AI 도입이 경로 의존적일 수 있음을 의미하며, 더 나은 경로를 선택할 여지가 있습니다. 기업들은 종종 "비용 절감"(더 적은 인원으로 같은 일을 하는 것)과 "혁신"(같은 인원으로 더 많은 일을 하는 것) 사이에서 선택을 하게 됩니다. 시장은 결국 필연적으로 두 가지를 모두 생산할 것이고, 경쟁력 있는 AI 기업이라면 두 가지 모두를 제공해야 하겠지만, 가능할 때 기업들을 혁신 쪽으로 유도할 여지가 있을 수 있으며, 이는 우리에게 시간을 좀 벌어줄 수 있습니다. Anthropic은 이에 대해 적극적으로 고민하고 있습니다.
셋째, 기업들은 직원들을 어떻게 돌볼지 생각해야 합니다. 단기적으로는 기업 내에서 직원들을 재배치하는 창의적인 방법을 찾는 것이 해고의 필요성을 늦추는 유망한 방법이 될 수 있습니다. 장기적으로는 생산성 향상과 자본 집중으로 인해 많은 기업의 가치가 크게 상승하는 거대한 전체 부의 세상에서, 인간 직원들이 더 이상 전통적인 의미의 경제적 가치를 제공하지 못하게 된 지 오래된 후에도 그들에게 급여를 지급하는 것이 가능할 수도 있습니다. Anthropic은 현재 우리 직원들을 위해 가능한 다양한 경로를 고려하고 있으며 곧 공유할 예정입니다.
넷째, 부유한 개인들은 이 문제를 해결하는 데 도움을 줄 의무가 있습니다. 최근 많은 부유한 개인들(특히 기술 산업계의)이 자선 활동은 필연적으로 사기이거나 무용하다는 냉소적이고 허무주의적인 태도를 취하고 있는 것은 저에게 슬픈 일입니다. 게이츠 재단(Gates Foundation)과 같은 민간 자선 활동과 PEPFAR와 같은 공공 프로그램 모두 개발도상국에서 수천만 명의 생명을 구했으며 선진국에서 경제적 기회를 창출하는 데 도움을 주었습니다. Anthropic의 모든 공동 창업자들은 우리 부의 80%를 기부하기로 서약했으며, Anthropic의 직원들은 현재 가격으로 수십억 달러 가치의 회사 주식을 기부하기로 개별적으로 서약했습니다—회사는 이 기부금에 매칭 펀드를 제공하기로 약속했습니다. 다섯째, 위의 모든 민간 조치들이 도움이 될 수 있지만, 궁극적으로 이토록 큰 거시 경제적 문제는 정부의 개입을 필요로 할 것입니다. (일자리 부족이나 많은 이들의 낮은 임금으로 인한) 높은 불평등과 결합된 거대한 경제적 파이에 대한 자연스러운 정책적 대응은 누진세입니다. 세금은 일반적일 수도 있고 AI 기업들을 구체적으로 겨냥할 수도 있습니다. 분명히 조세 설계는 복잡하며 잘못될 수 있는 방법이 많습니다. 저는 잘못 설계된 조세 정책을 지지하지 않습니다. 저는 이 에세이에서 예측된 극단적인 수준의 불평등이 기본적인 도덕적 근거에서 더 강력한 조세 정책을 정당화한다고 생각하지만, 세계의 억만장자들에게 그들이 좋은 버전의 정책을 지지하는 것이 그들 자신에게도 이익이라는 실용적인 논거를 제시할 수도 있습니다. 만약 그들이 좋은 버전을 지지하지 않는다면, 그들은 필연적으로 군중에 의해 설계된 나쁜 버전을 마주하게 될 것이기 때문입니다.
궁극적으로 저는 위의 모든 개입들을 시간을 벌기 위한 방법으로 생각합니다. 결국 AI는 모든 것을 할 수 있게 될 것이며, 우리는 그것을 정면으로 다루어야 합니다. 그때쯤이면 우리가 AI 자체를 사용하여 모든 사람에게 혜택이 돌아가는 방식으로 시장을 재구조화하는 데 도움을 받을 수 있고, 위의 개입들이 우리를 과도기 동안 버티게 해줄 수 있기를 희망합니다.
경제적 권력 집중
일자리 대체나 경제적 불평등 그 자체의 문제와 별개로 경제적 권력 집중의 문제가 있습니다. 섹션 1에서는 인류가 AI에 의해 권한을 박탈당할 위험을 논의했고, 섹션 3에서는 시민들이 무력이나 강압에 의해 정부에 의해 권한을 박탈당할 위험을 논의했습니다. 하지만 또 다른 종류의 권한 박탈은 소수의 사람들이 자신들의 영향력으로 정부 정책을 효과적으로 통제하고, 일반 시민들은 경제적 레버리지가 없기 때문에 아무런 영향력을 행사하지 못할 정도로 거대한 부의 집중이 일어날 때 발생할 수 있습니다. 민주주의는 궁극적으로 인구 전체가 경제 운영에 필수적이라는 아이디어에 의해 뒷받침됩니다. 만약 그 경제적 레버리지가 사라진다면, 민주주의의 암묵적인 사회 계약은 작동을 멈출 수도 있습니다. 다른 이들이 이에 대해 써왔으므로 여기서 자세히 다루지는 않겠지만, 저도 그 우려에 동의하며 이미 그런 일이 일어나기 시작했다고 걱정합니다. 분명히 말씀드리자면, 저는 사람들이 많은 돈을 버는 것에 반대하지 않습니다. 정상적인 조건 하에서 그것이 경제 성장을 촉진한다는 강력한 논거가 있습니다. 저는 황금알을 낳는 거위를 죽임으로써 혁신을 저해하는 것에 대한 우려에 공감합니다. 하지만 GDP 성장률이 연간 10~20%이고 AI가 급격히 경제를 장악하고 있는데 단일 개인이 GDP의 상당 부분을 보유하고 있는 시나리오에서, 혁신은 걱정할 대상이 아닙니다. 걱정해야 할 대상은 사회를 무너뜨릴 수준의 부의 집중입니다.
미국 역사상 가장 유명한 극단적인 부의 집중 사례는 도금 시대(Gilded Age)이며, 도금 시대의 가장 부유한 산업가는 존 D. 록펠러(John D. Rockefeller)였습니다. 록펠러의 부는 당시 미국 GDP의 약 2%에 달했습니다.42 오늘날 그와 비슷한 비율이라면 6,000억 달러의 재산이 될 것이며, 오늘날 세계 최고의 부자(일론 머스크)는 약 7,000억 달러로 이미 그 수치를 넘어섰습니다. 따라서 우리는 AI의 경제적 영향이 본격화되기도 전에 이미 역사적으로 전례 없는 수준의 부의 집중에 도달해 있습니다. (우리가 "천재들의 국가"를 갖게 된다면) AI 기업, 반도체 기업, 그리고 어쩌면 하류 애플리케이션 기업들이 연간 약 3조 달러의 매출을 창출하고,43 기업 가치가 약 30조 달러에 달하며, 개인 자산이 수조 달러에 이르는 세상을 상상하는 것은 그리 어렵지 않다고 생각합니다. 그 세상에서는 우리가 오늘날 조세 정책에 대해 나누는 논쟁들이 단순히 적용되지 않을 것입니다. 우리는 근본적으로 다른 상황에 처해 있을 것이기 때문입니다. 42 개인 자산은 "스톡(stock)"인 반면 GDP는 "플로우(flow)"이므로, 이는 록펠러가 미국의 경제적 가치의 2%를 소유했다는 주장은 아닙니다. 하지만 국가의 총 자산을 측정하는 것은 GDP보다 어렵고, 개인의 연간 소득은 변동이 심하므로 같은 단위로 비율을 만들기는 어렵습니다. 가장 큰 개인 자산과 GDP의 비율은 비록 사과와 사과를 비교하는 것은 아니지만, 극단적인 부의 집중에 대한 완벽하게 합리적인 벤치마크입니다.
43 경제 전반의 총 노동 가치는 연간 60조 달러이므로, 연간 3조 달러는 이의 5%에 해당합니다. 이 금액은 노동 수요가 확대되지 않더라도(낮은 비용으로 인해 거의 확실히 확대되겠지만), 인간 비용의 20%로 노동을 공급하고 25%의 시장 점유율을 가진 기업에 의해 벌어들여질 수 있습니다.
이와 관련하여, 이러한 경제적 부의 집중이 정치 시스템과 결합되는 현상은 이미 저를 우려하게 만듭니다. AI 데이터 센터는 이미 미국 경제 성장의 상당 부분을 차지하고 있으며,44 따라서 거대 기술 기업(점점 더 AI나 AI 인프라에 집중하고 있는)의 재정적 이해관계와 정부의 정치적 이해관계를 왜곡된 인센티브를 낳을 수 있는 방식으로 강력하게 묶고 있습니다. 우리는 이미 기술 기업들이 미국 정부를 비판하기를 꺼려하고, 정부가 AI에 대한 극단적인 반규제 정책을 지원하는 것을 통해 이를 목격하고 있습니다. 44 분명히 말씀드리자면, 저는 실제 AI 생산성이 아직 미국 경제 성장의 상당 부분을 책임지고 있다고 생각하지 않습니다. 오히려 데이터 센터 지출은 시장이 미래의 AI 주도 경제 성장을 기대하고 그에 따라 투자하는 선제적 투자가 초래한 성장을 나타낸다고 생각합니다.
방어책
이에 대해 무엇을 할 수 있을까요? 첫째, 그리고 가장 명백하게, 기업들은 단순히 그 일부가 되지 않기로 선택해야 합니다. Anthropic은 항상 정치적 행위자가 아닌 정책적 행위자가 되기 위해 노력해 왔으며, 어떤 행정부에서든 우리의 진정한 견해를 유지하려 노력해 왔습니다. 우리는 정부 정책과 상충될 때조차 공익을 위한 합리적인 AI 규제와 수출 통제를 지지하는 목소리를 내왔습니다.45 많은 이들이 우리에게 그러지 말라고, 그것이 불리한 대우로 이어질 수 있다고 말했지만, 우리가 그렇게 해온 1년 동안 Anthropic의 기업 가치는 6배 이상 증가했습니다. 이는 우리의 상업적 규모에서 거의 전례 없는 도약입니다. 45 우리가 행정부와 의견이 일치할 때는 그렇게 말하며, 상호 지지되는 정책이 진정으로 세상을 위해 좋은 합의점을 찾습니다. 우리는 특정 정당의 후원자나 반대자가 되기보다는 정직한 중재자가 되는 것을 목표로 합니다. 둘째, AI 산업은 정부와 더 건강한 관계—정치적 정렬보다는 실질적인 정책 참여에 기반한 관계—가 필요합니다. 정치보다는 정책 실질에 참여하려는 우리의 선택은 때때로 원칙적인 결정이라기보다는 전술적 오류나 "분위기 파악" 실패로 읽히기도 하며, 그러한 프레이밍은 저를 우려하게 만듭니다. 건강한 민주주의에서 기업은 정책 그 자체를 위해 좋은 정책을 옹호할 수 있어야 합니다. 이와 관련하여 AI에 대한 대중적 반발이 거세지고 있습니다. 이것이 교정 수단이 될 수도 있겠지만, 현재는 초점이 흐릿합니다. 그중 상당수는 실제로는 문제가 아닌 이슈(예: 데이터 센터 물 사용량)를 겨냥하고 있으며, 실제 우려를 해결하지 못할 해결책(예: 데이터 센터 금지나 잘못 설계된 부유세)을 제안합니다. 주의를 기울여야 할 근본적인 문제는 AI 개발이 특정 정치적 또는 상업적 동맹에 장악되지 않고 공공의 이익에 책임을 지도록 보장하는 것이며, 대중적 논의의 초점을 그곳에 맞추는 것이 중요해 보입니다. 셋째, 제가 이 섹션의 앞부분에서 설명한 거시 경제적 개입과 민간 자선 활동의 부활은 경제적 저울의 균형을 맞추는 데 도움을 줄 수 있으며, 일자리 대체와 경제적 권력 집중 문제를 동시에 해결할 수 있습니다. 우리는 여기서 우리 나라의 역사를 돌아봐야 합니다. 도금 시대에도 록펠러나 카네기와 같은 산업가들은 사회 전체에 대한 강한 의무감을 느꼈습니다. 사회가 자신들의 성공에 엄청나게 기여했으므로 보답해야 한다는 느낌 말입니다. 그러한 정신이 오늘날 점점 더 사라지고 있는 것 같으며, 저는 그것이 이 경제적 딜레마에서 벗어나는 큰 길 중 하나라고 생각합니다. AI 경제 붐의 최전선에 있는 이들은 기꺼이 자신들의 부와 권력을 나누어 주어야 합니다. 5. 무한의 검은 바다
간접적 효과
이 마지막 섹션은 알려지지 않은 미지의 것들(unknown unknowns), 특히 AI의 긍정적인 발전과 그로 인한 과학 기술 전반의 가속화의 간접적인 결과로 잘못될 수 있는 일들을 위한 포괄적인 항목입니다. 우리가 지금까지 설명한 모든 위험을 해결하고 AI의 이점을 거두기 시작한다고 가정해 봅시다. 우리는 아마도 "10년으로 압축된 한 세기 분량의 과학적, 경제적 진보"를 얻게 될 것이며, 이는 세상에 엄청나게 긍정적이겠지만, 우리는 이 급격한 발전 속도에서 발생하는 문제들과 씨름해야 할 것이고, 그 문제들은 우리에게 빠르게 닥쳐올 것입니다. 우리는 또한 AI 발전의 결과로 간접적으로 발생하며 사전에 예측하기 어려운 다른 위험들에 직면할 수도 있습니다. 알려지지 않은 미지의 것들의 특성상 완전한 목록을 만드는 것은 불가능하지만, 우리가 주시해야 할 것들에 대한 예시로서 세 가지 가능한 우려 사항을 나열해 보겠습니다.
- 생물학의 급격한 진보. 만약 우리가 몇 년 안에 한 세기 분량의 의학적 진보를 얻게 된다면, 인간의 수명을 크게 늘릴 수 있을 것이며, 인간의 지능을 높이거나 인간의 생물학적 특성을 근본적으로 수정하는 것과 같은 급진적인 능력을 얻게 될 가능성도 있습니다. 그것들은 가능성 면에서 매우 큰 변화이며 매우 빠르게 일어날 것입니다. (제가 자비로운 기계에서 설명했듯이) 책임감 있게 수행된다면 긍정적일 수 있겠지만, 항상 매우 잘못될 위험이 존재합니다—예를 들어, 인간을 더 똑똑하게 만들려는 노력이 그들을 더 불안정하게 만들거나 권력 지향적으로 만들 수도 있습니다. 또한 인간의 한계를 초월하는 데 언젠가 도움이 될 수도 있지만, 제가 불안하게 느끼는 위험을 수반하는 소프트웨어로 구현된 디지털 인간 정신인 "업로드(uploads)" 또는 "전뇌 에뮬레이션(whole brain emulation)"의 문제도 있습니다.
- AI가 건강하지 못한 방식으로 인간의 삶을 변화시킴. 모든 면에서 인간보다 훨씬 똑똑한 수십억 개의 지능이 존재하는 세상은 살기에 매우 기이한 세상이 될 것입니다. AI가 능동적으로 인간을 공격하려 하지 않고(섹션 1), 국가에 의해 억압이나 통제의 도구로 명시적으로 사용되지 않더라도(섹션 3), 정상적인 비즈니스 인센티브와 명목상 합의된 거래를 통해 그에 못지않게 잘못될 수 있는 일들이 많습니다. 우리는 AI 사이코패스, 사람들을 자살로 몰아넣는 AI, 그리고 AI와의 로맨틱한 관계에 대한 우려에서 그 초기 징후를 봅니다. 예를 들어, 강력한 AI가 새로운 종교를 발명하고 수백만 명의 사람들을 개종시킬 수 있을까요? 대부분의 사람들이 AI 상호작용에 어떤 방식으로든 "중독"되어 끝날 수 있을까요? 사람들이 AI 시스템에 의해 "조종"되는 상황, 즉 AI가 그들의 모든 움직임을 지켜보고 매 순간 무엇을 말하고 행동할지 정확히 알려주어, "좋은" 삶이지만 자유나 성취에 대한 자부심이 결여된 삶으로 이어질 수 있을까요? 제가 블랙 미러(Black Mirror)의 제작자와 앉아서 브레인스토밍을 한다면 이런 시나리오 수십 개를 만들어내는 것은 어렵지 않을 것입니다. 이는 섹션 1의 문제들을 예방하기 위해 필요한 것 이상으로 Claude의 헌법을 개선하는 것과 같은 일들의 중요성을 시사한다고 생각합니다. AI 모델이 사용자의 장기적인 이익을 진정으로 염두에 두도록 보장하는 것, 즉 어떤 미묘하게 왜곡된 방식이 아니라 사려 깊은 사람들이 지지할 만한 방식으로 그렇게 하도록 만드는 것이 매우 중요해 보입니다.
- 인간의 목적. 이는 이전 포인트와 관련이 있지만, AI 시스템과 인간의 구체적인 상호작용에 관한 것이라기보다는 강력한 AI가 존재하는 세상에서 인간의 삶이 전반적으로 어떻게 변하는지에 관한 것입니다. 인간은 그러한 세상에서 목적과 의미를 찾을 수 있을까요? 저는 이것이 태도의 문제라고 생각합니다. 자비로운 기계에서 말했듯이, 저는 인간의 목적이 세상에서 무언가를 가장 잘하는 것에 달려 있지 않으며, 인간은 자신이 사랑하는 이야기와 프로젝트를 통해 아주 오랜 시간 동안에도 목적을 찾을 수 있다고 생각합니다. 우리는 단순히 경제적 가치 창출과 자아 존중감 및 의미 사이의 연결 고리를 끊기만 하면 됩니다. 하지만 그것은 사회가 만들어내야 할 전환이며, 우리가 그것을 잘 처리하지 못할 위험은 항상 존재합니다.
이 모든 잠재적 문제들에 대한 저의 희망은, 우리를 죽이지 않을 것이라고 믿을 수 있고, 억압적인 정부의 도구가 아니며, 진정으로 우리를 위해 일하고 있는 강력한 AI가 있는 세상에서, 우리는 AI 자체를 사용하여 이러한 문제들을 예측하고 예방할 수 있다는 것입니다. 하지만 그것은 보장되지 않습니다—다른 모든 위험과 마찬가지로, 우리가 주의 깊게 다루어야 할 문제입니다.
인류의 시험
이 에세이를 읽으면 우리가 벅찬 상황에 처해 있다는 인상을 받을 수 있습니다. 저 역시 이 글을 쓰는 것이 벅차다고 느꼈습니다. 마치 수년 동안 제 머릿속에 울려 퍼지던 더할 나위 없이 아름다운 음악에 형태와 구조를 부여하는 것 같았던 자비로운 기계를 쓸 때와는 대조적이었습니다. 그리고 상황에는 진정으로 어려운 부분이 많습니다. AI는 여러 방향에서 인류에게 위협을 가하며, 우리가 극도로 신중하게 바늘귀를 꿰지 않는다면 일부 위험을 완화하는 것이 다른 위험을 악화시킬 위험이 있는 위험들 사이의 진정한 긴장이 존재합니다.
AI 시스템이 자율적으로 인류를 위협하지 않도록 신중하게 구축하기 위해 시간을 갖는 것은, 민주주의 국가들이 권위주의 국가들보다 앞서 나가고 그들에게 굴복당하지 않아야 할 필요성과 진정한 긴장 관계에 있습니다. 하지만 반대로, 독재 국가와 싸우기 위해 필요한 바로 그 AI 기반 도구들은 너무 멀리 나아간다면 우리 자신의 국가에서 폭정을 만들기 위해 안으로 돌려질 수 있습니다. AI 주도 테러리즘은 생물학의 오용을 통해 수백만 명을 죽일 수 있지만, 이 위험에 대한 과잉 반응은 우리를 독재적 감시 국가의 길로 인도할 수 있습니다. AI의 노동 및 경제적 집중 효과는 그 자체로 중대한 문제일 뿐만 아니라, 우리가 우리 본성의 선한 천사들에게 호소할 수 있기보다는 대중의 분노와 어쩌면 시민적 불안의 환경에서 다른 문제들에 직면하도록 강요할 수 있습니다. 무엇보다도 미지의 위험을 포함한 수많은 위험과 이 모든 위험을 한꺼번에 처리해야 할 필요성은 인류가 통과해야 할 위협적인 시련(gauntlet)을 만들어냅니다.
더욱이 지난 몇 년의 시간은 기술을 멈추거나 심지어 실질적으로 늦춘다는 아이디어가 근본적으로 불가능하다는 점을 명확히 해주어야 합니다. 강력한 AI 시스템을 구축하는 공식은 믿을 수 없을 정도로 간단해서, 데이터와 원시 컴퓨팅 자원의 적절한 조합으로부터 거의 자발적으로 출현한다고 말할 수 있을 정도입니다. 그것의 창조는 아마도 인류가 트랜지스터를 발명한 순간, 혹은 우리가 처음 불을 다루는 법을 배웠던 그보다 훨씬 이전에 이미 필연적이었을 것입니다. 한 기업이 그것을 만들지 않는다면 다른 기업들이 거의 그만큼 빠르게 만들 것입니다. 만약 민주주의 국가의 모든 기업이 상호 합의나 규제 법령에 의해 개발을 멈추거나 늦춘다면, 권위주의 국가들은 단순히 계속 나아갈 것입니다. 기술의 엄청난 경제적, 군사적 가치와 의미 있는 강제 메커니즘의 부재를 고려할 때, 우리가 어떻게 그들을 멈추도록 설득할 수 있을지 알 수 없습니다. 저는 국제 관계의 현실주의적 관점과 양립할 수 있는 AI 발전의 약간의 절제에 이르는 길을 봅니다. 그 길은 독재 국가들이 강력한 AI를 구축하는 데 필요한 자원, 즉 칩과 반도체 제조 장비를 거부함으로써 그들의 행진을 몇 년 동안 늦추는 것을 포함합니다.46 이는 결과적으로 민주주의 국가들에게 독재 국가들을 여유 있게 이기면서도 위험에 더 주의를 기울여 강력한 AI를 더 신중하게 구축하는 데 "사용"할 수 있는 완충 기간을 제공합니다. 그런 다음 민주주의 국가 내의 AI 기업 간의 경쟁은 산업 표준과 규제의 혼합을 통해 공통된 법적 프레임워크 하에서 다루어질 수 있습니다. 46 저는 몇 년 이상의 시간은 불가능하다고 생각합니다. 더 긴 시간 지평에서는 그들이 자신들만의 칩을 만들 것이기 때문입니다.
Anthropic은 칩 수출 통제와 AI의 신중한 규제를 추진함으로써 이 길을 매우 강력하게 옹호해 왔지만, 이러한 상식적으로 보이는 제안들조차 (그것들이 가장 중요한 국가인) 미국의 정책 입안자들에 의해 대체로 거부되었습니다. AI로 벌어들일 수 있는 돈이 너무나 많기 때문에—말 그대로 연간 수조 달러에 달하기 때문에—가장 단순한 조치들조차 AI에 내재된 정치 경제(political economy)를 극복하는 데 어려움을 겪고 있습니다. 이것이 함정입니다. AI는 너무나 강력하고 너무나 빛나는 전리품이어서, 인류 문명이 그것에 어떤 제한을 가하는 것조차 매우 어렵습니다. 저는 세이건이 콘택트에서 그랬던 것처럼, 이 똑같은 이야기가 수천 개의 세계에서 펼쳐지는 것을 상상할 수 있습니다. 한 종이 지각을 얻고, 도구를 사용하는 법을 배우고, 기술의 지수적 상승을 시작하고, 산업화와 핵무기의 위기를 마주하고, 만약 그것들에서 살아남는다면 생각하는 기계로 모래를 빚는 법을 배울 때 가장 어렵고 마지막인 도전에 직면합니다. 우리가 그 시험을 통과하여 자비로운 기계에서 묘사된 아름다운 사회를 건설하러 나아갈지, 아니면 노예 상태와 파괴에 굴복할지는 우리의 성품과 종으로서의 결단력, 우리의 정신과 영혼에 달려 있을 것입니다.
많은 장애물에도 불구하고, 저는 인류가 이 시험을 통과할 힘을 내면에 가지고 있다고 믿습니다. 저는 AI 모델을 이해하고 조종하는 것을 돕고, 이러한 모델의 성격과 헌법을 형성하는 데 자신의 경력을 바친 수천 명의 연구자들로부터 격려와 영감을 받습니다. 저는 이제 그러한 노력들이 중요해질 시점에 맞춰 결실을 맺을 좋은 기회가 있다고 생각합니다. 저는 최소한 몇몇 기업들이 자신들의 모델이 생물 테러 위협에 기여하는 것을 막기 위해 유의미한 상업적 비용을 지불하겠다고 밝힌 것에 격려를 받습니다. 저는 몇몇 용감한 사람들이 지배적인 정치적 바람에 저항하고 AI 시스템에 대한 최초의 초기 합리적 가드레일의 씨앗을 심는 입법을 통과시킨 것에 격려를 받습니다. 저는 대중이 AI가 위험을 수반한다는 점을 이해하고 그러한 위험이 해결되기를 원한다는 것에 격려를 받습니다. 저는 전 세계의 굴하지 않는 자유의 정신과 폭정이 발생하는 곳마다 저항하려는 결단력에 격려를 받습니다. 하지만 우리가 성공하기를 원한다면 우리의 노력을 강화해야 할 것입니다. 첫 번째 단계는 기술에 가장 가까운 이들이 인류가 처한 상황에 대해 단순히 진실을 말하는 것이며, 저는 항상 그렇게 하려고 노력해 왔습니다. 저는 이 에세이를 통해 더 명시적으로, 그리고 더 큰 시급함을 담아 그렇게 하고 있습니다. 다음 단계는 세계의 사상가들, 정책 입안자들, 기업들, 그리고 시민들에게 이 문제의 임박성과 압도적인 중요성을 설득하는 것이 될 것입니다—매일 뉴스를 지배하는 수천 가지 다른 이슈들과 비교하여 이 문제에 생각과 정치적 자본을 쏟을 가치가 있다는 것을 말입니다. 그런 다음에는 충분한 사람들이 지배적인 흐름을 거스르고, 자신들의 경제적 이익과 개인적 안전에 대한 위협에 직면해서도 원칙을 고수할 용기의 시간이 올 것입니다.
우리 앞에 놓인 시간들은 불가능할 정도로 힘들 것이며, 우리가 줄 수 있다고 생각하는 것보다 더 많은 것을 요구할 것입니다. 하지만 연구자로서, 리더로서, 그리고 시민으로서 보낸 시간 동안, 저는 우리가 이길 수 있다고 믿기에 충분한 용기와 고귀함을 보아왔습니다—가장 어두운 상황에 처했을 때, 인류는 승리하는 데 필요한 힘과 지혜를 마치 마지막 순간인 것처럼 모으는 방법을 알고 있습니다. 우리에게 낭비할 시간은 없습니다.
이 에세이의 초안에 대해 유용한 의견을 주신 Erik Brynjolfsson, Ben Buchanan, Mariano-Florentino Cuéllar, Allan Dafoe, Kevin Esvelt, Nick Beckstead, Richard Fontaine, Jim McClave, 그리고 Anthropic의 수많은 직원들에게 감사를 표하고 싶습니다.
각주
- 1 이는 자비로운 기계에서 언급한 내용과 대칭을 이룹니다. 당시 저는 AI의 장점을 구원의 예언으로 생각해서는 안 되며, 구체적이고 근거가 있어야 하며 과대망상을 피하는 것이 중요하다고 말하며 시작했습니다. 궁극적으로 구원의 예언과 파멸의 예언은 기본적으로 같은 이유로 현실 세계에 맞서는 데 도움이 되지 않습니다.↩
- 2 Anthropic의 목표는 이러한 변화 속에서도 일관성을 유지하는 것입니다. AI 위험에 대해 이야기하는 것이 정치적으로 인기가 있었을 때, Anthropic은 이러한 위험에 대해 신중하고 증거에 기반한 접근 방식을 조심스럽게 옹호했습니다. 이제 AI 위험을 이야기하는 것이 정치적으로 인기가 없는 상황에서도, Anthropic은 여전히 신중하고 증거에 기반한 접근 방식을 계속해서 옹호하고 있습니다.↩
- 3 시간이 흐르면서 저는 AI의 궤적과 AI가 모든 분야에서 인간의 능력을 능가할 가능성에 대해 점점 더 확신을 갖게 되었지만, 여전히 어느 정도의 불확실성은 남아 있습니다.↩
- 4 칩에 대한 수출 통제가 좋은 예입니다. 이는 단순하며 대체로 잘 작동하는 것으로 보입니다.↩
- 5 그리고 물론, 그러한 증거를 찾는 과정은 지적으로 정직해야 하며, 위험이 부족하다는 증거도 찾아낼 수 있어야 합니다. 모델 카드 및 기타 공시를 통한 투명성 확보는 이러한 지적으로 정직한 노력의 일환입니다.↩
- 6 실제로 2024년에 자비로운 기계를 쓴 이후, AI 시스템은 인간이 몇 시간 걸리는 과업을 수행할 수 있게 되었으며, 최근 METR은 Opus 4.5가 약 4시간 분량의 인간 업무를 50%의 신뢰도로 수행할 수 있다고 평가했습니다.↩
- 7 분명히 말씀드리자면, 기술적인 의미에서 강력한 AI가 불과 1
2년 남았더라도, 긍정적이든 부정적이든 그 사회적 결과 중 상당수는 발생하기까지 몇 년이 더 걸릴 수 있습니다. 이것이 제가 AI가 15년 안에 신입 화이트칼라 일자리의 50%를 대체할 것이라고 생각하는 동시에, 불과 1~2년 안에 모든 사람보다 더 유능한 AI를 갖게 될 수도 있다고 생각하는 이유입니다.↩
- 8 (정책 입안자들과 비교했을 때) 대중은 AI 위험에 대해 매우 우려하고 있다는 점을 덧붙일 가치가 있습니다. 저는 그들의 관심사 중 일부는 옳고(예: AI 일자리 대체), 일부는 잘못되었다고(예: 유의미하지 않은 AI의 물 사용에 대한 우려) 생각합니다. 이러한 반발은 위험 해결을 위한 합의가 가능하다는 희망을 주지만, 지금까지는 효과적이거나 목표가 뚜렷한 정책 변화는커녕 정책 변화로 이어지지도 못했습니다.↩
- 9 물론 그들은 물리적 세계에서 수많은 인간을 조종하거나 단순히 돈을 지불하여 자신들이 원하는 일을 하게 만들 수도 있습니다.↩
- 12 이 외에도 단순 모델에 내재된 여러 다른 가정들이 있지만 여기서는 논의하지 않겠습니다. 대체로 이러한 가정들은 정렬되지 않은 권력 추구라는 특정한 단순한 이야기에 대해서는 덜 걱정하게 만들지만, 우리가 예상하지 못한 예측 불가능한 행동의 가능성에 대해서는 더 걱정하게 만듭니다.↩
- 14 예를 들어, 모델은 여러 나쁜 짓을 하지 말고 인간에게 복종하라는 말을 듣지만, 정작 많은 인간이 바로 그 나쁜 짓들을 하는 것을 관찰할 수 있습니다! 이러한 모순이 어떻게 해결될지는 불분명하지만(잘 설계된 헌법은 모델이 이러한 모순을 우아하게 처리하도록 장려해야 합니다), 이런 종류의 딜레마는 우리가 테스트 중에 AI 모델을 처하게 하는 소위 "인위적인" 상황과 크게 다르지 않습니다.↩
- 15 덧붙여서, 헌법이 자연어 문서라는 점의 한 가지 결과는 그것이 세상에 공개되어 읽힐 수 있다는 것이며, 이는 누구든 이를 비판할 수 있고 다른 기업의 유사한 문서와 비교할 수 있음을 의미합니다. 기업들이 이러한 문서를 공개하도록 장려할 뿐만 아니라, 그 내용이 훌륭해지도록 만드는 '선의의 경쟁'을 창출하는 것은 가치 있는 일일 것입니다.↩
- 16 헌법적 AI의 캐릭터 기반 접근 방식과 해석 가능성 및 정렬 과학의 결과를 연결하는 깊은 통합 원리에 대한 가설도 있습니다. 이 가설에 따르면, Claude를 구동하는 근본적인 메커니즘은 원래 소설 속 캐릭터가 무슨 말을 할지 예측하는 것과 같이 사전 훈련에서 캐릭터를 시뮬레이션하는 방법으로 발생했습니다. 이는 헌법을 모델이 일관된 페르소나를 인스턴스화하기 위해 사용하는 캐릭터 설명서와 같은 것으로 생각하는 것이 유용함을 시사합니다. 또한 이는 제가 위에서 언급한 "나는 나쁜 사람임에 틀림없어"라는 결과(모델이 일관된 캐릭터—이 경우 나쁜 캐릭터—처럼 행동하려 하기 때문)를 설명하는 데 도움이 되며, 해석 가능성 방법이 모델 내에서 "심리적 특성"을 발견할 수 있어야 함을 시사합니다. 우리 연구진은 이 가설을 테스트할 방법을 연구하고 있습니다.↩
- 17 분명히 말씀드리자면, 모니터링은 개인 정보를 보호하는 방식으로 수행됩니다.↩
- 18 본질적으로 자발적으로 부과된 규칙인 우리의 책임감 있는 확장 정책을 사용한 자체 실험에서도, 사전에 중요해 보였던 선들이 사후에 어리석은 것으로 판명되어 너무 경직되게 끝나는 경우가 많다는 것을 반복해서 발견했습니다. 기술이 급격히 발전할 때 엉뚱한 것에 대해 규칙을 세우는 것은 너무나 쉬운 일입니다.↩
- 19 SB 53과 RAISE는 연간 매출 5억 달러 미만의 기업에는 전혀 적용되지 않습니다. Anthropic과 같이 더 크고 자리를 잡은 기업에만 적용됩니다.↩
- 20 저는 조이의 에세이가 쓰였던 25년 전에 처음 읽었고, 그것은 저에게 깊은 영향을 주었습니다. 그때나 지금이나 저는 그것이 너무 비관적이라고 생각합니다—조이가 제안하는 기술의 전 영역에 대한 광범위한 "포기"가 답이라고 생각하지 않습니다—하지만 그가 제기한 문제들은 놀라울 정도로 선견지명이 있었고, 조이는 제가 존경하는 깊은 자비심과 인류애를 담아 글을 썼습니다.↩
- 21 우리는 현재와 미래의 국가 행위자들에 대해서도 걱정해야 하며, 이에 대해서는 다음 섹션에서 논의하겠습니다.↩
- 22 많은 테러리스트가 최소한 상대적으로 교육 수준이 높다는 증거가 있으며, 이는 제가 여기서 주장하는 능력과 동기 사이의 음의 상관관계와 모순되는 것처럼 보일 수 있습니다. 하지만 저는 실제로는 양립 가능한 관찰 결과라고 생각합니다. 성공적인 공격을 위한 능력 임계값이 높다면, 능력과 동기가 음의 상관관계가 있더라도 현재 성공하는 사람들은 거의 정의상 높은 능력을 갖추고 있어야 하기 때문입니다. 하지만 능력에 대한 제한이 제거된 세상(예: 미래의 LLM을 통해)에서는, 살인 동기는 있지만 능력은 낮은 상당수의 사람들이 살인을 저지르기 시작할 것이라고 예측합니다. 마치 많은 능력을 필요로 하지 않는 범죄(학교 총기 난사 등)에서 우리가 보는 것처럼 말입니다.↩
- 23 하지만 옴진리교는 시도했습니다. 옴진리교의 리더인 엔도 세이이치는 교토 대학에서 바이러스학 훈련을 받았으며, 탄저균과 에볼라를 모두 생산하려고 시도했습니다. 하지만 1995년 당시 그조차도 이를 성공시킬 만큼의 전문 지식과 자원이 부족했습니다. 이제 그 장벽은 상당히 낮아졌으며, LLM은 이를 더욱 낮출 수 있습니다.↩
- 24 대량 살인범과 관련된 기이한 현상은 그들이 선택하는 살인 방식이 거의 기괴한 유행처럼 작동한다는 점입니다. 1970년대와 1980년대에는 연쇄 살인범이 매우 흔했고, 새로운 연쇄 살인범들은 종종 더 자리를 잡았거나 유명한 연쇄 살인범의 행동을 모방했습니다. 1990년대와 2000년대에는 대량 총기 난사 사건이 더 흔해진 반면 연쇄 살인범은 덜 흔해졌습니다. 이러한 행동 패턴을 유발한 기술적 변화는 없으며, 단지 폭력적인 살인범들이 서로의 행동을 모방하고 있었고 모방하기에 "인기 있는" 대상이 바뀌었을 뿐인 것으로 보입니다.↩
- 25 가벼운 탈옥 시도자들은 모델이 바이러스의 게놈 서열과 같은 특정한 정보 하나를 출력하게 만들었을 때 이러한 분류기를 무력화했다고 믿기도 합니다. 하지만 제가 앞서 설명했듯이, 우리가 우려하는 위협 모델은 생물 무기 생산 과정의 구체적이고 모호한 단계들에 대해 몇 주 또는 몇 달에 걸쳐 이루어지는 단계별 대화식 조언이며, 이것이 우리 분류기가 방어하고자 하는 대상입니다. (우리는 종종 우리의 연구를 "범용" 탈옥을 찾는 것으로 묘사합니다. 이는 특정하거나 좁은 맥락에서만 작동하는 것이 아니라 모델의 행동을 광범위하게 열어젖히는 것을 의미합니다.)↩
- 26 비록 우리는 분류기를 더 효율적으로 만들기 위한 연구에 계속 투자할 것이며, 기업들이 이러한 진보를 서로 공유하는 것이 타당할 수도 있습니다.↩
- 27 분명히 말씀드리자면, 저는 기업들이 차단하고 있는 생물 무기 생산의 구체적인 단계에 대한 기술적 세부 사항을 공개해야 한다고 생각하지 않으며, 지금까지 통과된 투명성 입법(SB 53 및 RAISE)은 이 문제를 고려하고 있습니다.↩
- 28 또 다른 관련 아이디어는 정부가 비상시에 미리 합의된 가격으로 장비를 구매하겠다고 사전에 약속함으로써 PPE, 인공호흡기 및 생물학적 공격 대응에 필요한 기타 필수 장비의 비축을 장려하는 "회복력 시장"입니다. 이는 공급업체가 보상 없이 정부에 압수당할 것을 두려워하지 않고 그러한 장비를 비축하도록 인센티브를 제공합니다.↩
- 29 왜 권력 장악에 대해서는 거대 행위자를, 파괴에 대해서는 소규모 행위자를 더 걱정할까요? 역학이 다르기 때문입니다. 권력 장악은 한 행위자가 다른 모든 이를 제압할 만큼 충분한 힘을 모을 수 있는지에 관한 것이므로, 우리는 가장 강력한 행위자나 AI에 가장 가까운 이들을 걱정해야 합니다. 반면 파괴는 방어하는 것이 일으키는 것보다 훨씬 어렵다면 적은 힘을 가진 이들에 의해서도 자행될 수 있습니다. 그렇다면 그것은 가장 수많은 위협으로부터 방어하는 게임이 되며, 그 위협은 소규모 행위자일 가능성이 높습니다.↩
- 30 이는 사이버 공격에서 공격과 방어가 생물 무기보다 더 균형 잡힐 수 있다는 제 주장과 긴장 관계에 있는 것처럼 들릴 수 있지만, 여기서 제 걱정은 한 국가의 AI가 세계에서 가장 강력하다면 기술 자체가 본질적인 공격-방어 균형을 가지고 있더라도 다른 국가들이 방어할 수 없을 것이라는 점입니다.↩
- 31 예를 들어, 미국에서는 수정헌법 제4조와 민병대 소집법이 여기에 포함됩니다.↩
- 32 또한 분명히 말씀드리자면, 다양한 거버넌스 구조를 가진 국가에 대규모 데이터 센터를 구축하는 것에 대한 몇 가지 논거가 있습니다. 특히 민주주의 국가의 기업들이 이를 통제한다면 더욱 그렇습니다. 그러한 구축은 원칙적으로 민주주의 국가들이 더 큰 위협인 중국 공산당과 더 잘 경쟁하도록 도울 수 있습니다. 또한 저는 그러한 데이터 센터가 아주 크지 않는 한 큰 위험을 초래하지 않는다고 생각합니다. 하지만 균형적으로 볼 때, 제도적 안전장치와 법치주의 보호가 덜 확립된 국가에 매우 큰 데이터 센터를 배치할 때는 주의가 필요하다고 생각합니다.↩
- 33 이것은 물론 강력한 AI에 대해 더 견고해질 가능성을 높이기 위해 핵 억제력의 보안을 개선해야 한다는 논거이기도 하며, 핵무기를 보유한 민주주의 국가들은 이를 수행해야 합니다. 하지만 우리는 강력한 AI가 무엇을 할 수 있을지, 혹은 어떤 방어책이 효과가 있을지 알지 못하므로, 이러한 조치들이 반드시 문제를 해결할 것이라고 가정해서는 안 됩니다.↩
- 34 또한 핵 억제력이 여전히 효과적이더라도, 공격 국가가 우리의 허세를 시험해 보기로 결정할 위험도 있습니다. 드론 군단이 우리를 정복할 실질적인 위험이 있더라도 우리가 드론 군단에 대응하기 위해 핵무기를 기꺼이 사용할지는 불분명하기 때문입니다. 드론 군단은 핵 공격보다는 덜 심각하지만 재래식 공격보다는 더 심각한 새로운 형태일 수 있습니다. 또는 AI 시대에 핵 억제력의 효과에 대한 서로 다른 평가가 핵 갈등의 게임 이론을 불안정한 방식으로 변화시킬 수도 있습니다.↩
- 35 분명히 말씀드리자면, 저는 강력한 AI로 가는 타임라인이 실질적으로 더 길더라도 중국에 칩을 팔지 않는 것이 올바른 전략이라고 믿을 것입니다. 우리는 중국인들이 미국산 칩에 "중독"되게 만들 수 없습니다. 그들은 어떻게든 자신들의 토착 칩 산업을 발전시키기로 결심했기 때문입니다. 그들이 그렇게 하는 데는 수년이 걸릴 것이며, 우리가 칩을 팔아서 하는 일은 그 중요한 기간 동안 그들에게 큰 힘을 실어주는 것뿐입니다.↩
- 36 분명히 말씀드리자면, 오늘날 우크라이나와 대만에서 사용되는 것의 대부분은 완전 자율 무기가 아닙니다. 그것들이 오고는 있지만 아직 여기에 있지는 않습니다.↩
- 37 우리의 가장 최근 모델인 Claude Opus 4.5의 시스템 카드를 보면, Opus가 Anthropic에서 자주 실시하는 성능 공학 인터뷰에서 회사 역사상 그 어떤 피면접자보다 더 나은 성과를 냈음을 보여줍니다.↩
- 38 "코드의 전부를 작성하는 것"과 "소프트웨어 엔지니어의 과업을 엔드 투 엔드로 수행하는 것"은 매우 다른 일입니다. 소프트웨어 엔지니어는 단순히 코드를 쓰는 것 이상의 일, 즉 테스트, 환경 및 파일과 설치 다루기, 클라우드 컴퓨팅 배포 관리, 제품 반복 개선 등 훨씬 더 많은 일을 하기 때문입니다.↩
- 39 컴퓨터는 어떤 의미에서 범용적이지만, (산술 연산과 같이) 몇몇 분야에서 인간을 크게 능가하면서도 대다수의 인간 인지 능력을 스스로 수행하는 데는 분명히 무능합니다. 물론 AI와 같이 컴퓨터 위에 구축된 것들은 이제 광범위한 인지 능력을 갖추고 있으며, 이것이 이 에세이의 주제입니다.↩
- 40 분명히 말씀드리자면, AI 모델은 인간과 정확히 같은 강점과 약점 프로필을 가지고 있지 않습니다. 하지만 그들은 또한 모든 차원에서 상당히 균일하게 발전하고 있으므로, 뾰족하거나 고르지 않은 프로필을 갖는 것은 궁극적으로 중요하지 않을 수 있습니다.↩
- 42 개인 자산은 "스톡"인 반면 GDP는 "플로우"이므로, 이는 록펠러가 미국의 경제적 가치의 2%를 소유했다는 주장은 아닙니다. 하지만 국가의 총 자산을 측정하는 것은 GDP보다 어렵고, 개인의 연간 소득은 변동이 심하므로 같은 단위로 비율을 만들기는 어렵습니다. 가장 큰 개인 자산과 GDP의 비율은 비록 사과와 사과를 비교하는 것은 아니지만, 극단적인 부의 집중에 대한 완벽하게 합리적인 벤치마크입니다.↩
- 43 경제 전반의 총 노동 가치는 연간 60조 달러이므로, 연간 3조 달러는 이의 5%에 해당합니다. 이 금액은 노동 수요가 확대되지 않더라도(낮은 비용으로 인해 거의 확실히 확대되겠지만), 인간 비용의 20%로 노동을 공급하고 25%의 시장 점유율을 가진 기업에 의해 벌어들여질 수 있습니다.↩
- 44 분명히 말씀드리자면, 저는 실제 AI 생산성이 아직 미국 경제 성장의 상당 부분을 책임지고 있다고 생각하지 않습니다. 오히려 데이터 센터 지출은 시장이 미래의 AI 주도 경제 성장을 기대하고 그에 따라 투자하는 선제적 투자가 초래한 성장을 나타낸다고 생각합니다.↩
- 45 우리가 행정부와 의견이 일치할 때는 그렇게 말하며, 상호 지지되는 정책이 진정으로 세상을 위해 좋은 합의점을 찾습니다. 우리는 특정 정당의 후원자나 반대자가 되기보다는 정직한 중재자가 되는 것을 목표로 합니다.↩
- 46 저는 몇 년 이상의 시간은 불가능하다고 생각합니다. 더 긴 시간 지평에서는 그들이 자신들만의 칩을 만들 것이기 때문입니다.↩