구글 딥마인드가 발표한 AI의 '마음' 해석 (Gemma Scope)
AI 기술의 발전은 정말 많은 분야에서 변화를 가져왔는데요, 이제는 로봇이나 약물 개발 뿐만 아니라 일상 생활 속에서도 우리가 AI를 마주할 일이 많아졌습니다. 하지만 AI가 어떤 메커니즘을 통해 기능하는지 자세히 알기 어렵다는 점 때문에, 이를 무작정 사용할 경우 예기치 않은 문제가 발생할 수도 있습니다. 이를 해결하기 위한 가장 최근의 연구 중 하나가 바로 구글 딥마인드의 Gemma Scope입니다. Gemma Scope는 AI 내부의 작동 원리를 이해하려는 시도를 하는데요, '메카니즘 해석 가능성(mechanistic interpretability)'이라는 분야의 연구 방법을 사용하고 있습니다. 이 방식은 AI의 내부 알고리즘을 역공학적으로 분석하여, 주어진 입력이 어떤 과정을 거쳐 최종 출력까지 도달하는지를 이해하는 것입니다. 즉, AI의 '마음'을 들여다본다고 할 수 있겠습니다. Gemma Scope는 '희소 오토인코더(sparse autoencoder)'라는 기법을 사용해 AI 모델의 각 계층을 분석합니다. 쉽게 말해 희소 오토인코더는 데이터의 효율적이고 일반화된 표현을 찾아내는 일종의 현미경이라고 할 수 있습니다. 모델이 특정 주제에 관한 질문(예: 치와와)에 응답할 때, '개'와 관련된 특징이 활성화되는 식으로, 모델의 각 계층을 확대하여 살펴볼 수 있습니다. 관련 연구들은 오픈소스로 공개되어 있어, Gemma와 희소 오토인코더는 전 세계의 연구자들이 그 결과를 분석할 수 있도록 설계되었습니다. 이를 통해 AI의 내부 로직에 대한 새로운 통찰을 얻을 수 있기를 기대하고 있습니다. 또한 희소 오토인코더는 비지도 학습 방법론을 사용하여, AI 모델이 인간 개념을 어떻게 분해하고 다시 조합하는지를 독립적으로 학습합니다. 이 과정에서 발견될 수 있는 흥미로운 특징 중 하나는 바로 '어색함(cringe)'이라는 특징인데요, 이 특징은 주로 텍스트나 영화에 대한 부정적 비평에서 발견됩니다. 이처럼 인간적 요소를 추적할 수 있다는 점은 아주 흥미롭습니다. 하지만 모든 특징을 추적하는 것이 간단한 일은 아닙니다. 예를 들어, 모델 내부에서 '속임수'를 저지를 때의 특징을 찾는 것이 쉽지 않다는 점이 있습니다. 특정한 속임수나 부정확한 정보 제공이 발생할 때, 어떤 특징이 활성화되는지를 명확히 밝혀내기 어렵습니다. 딥마인드의 연구는 어찌 보면 다른 AI 연구회사인 Anthropic의 사례와 비슷합니다. Anthropic은 'Golden Gate Claude' 프로젝트를 통해 샌프란시스코의 금문교와 관련된 특징을 찾아내고 이를 강조하여 AI 모델이 금문교 자체로 인식하게 만드는 실험을 했습니다. AI의 '마음'을 해석하는 연구는 단순히 독특한 퀴즈가 아니라, AI가 어떻게 일반화하여 사고하고, 어떤 수준의 추상화에서 작업하는지를 이해하는 데 매우 유용할 수 있습니다. Samuel Marks가 이끄는 팀은 희소 오토인코더를 사용해 특정 모델이 직업을 특정 성별과 연관짓는 특징을 찾아내어, 편견을 줄이기 위한 기능을 꺼내는 실험도 진행했다고 합니다. 기술 발전의 혜택으로서 이와 같은 연구는 AI가 왜 특정한 오류를 범하는지에 대해 더 깊은 통찰을 줍니다. 예를 들어 AI가 9.11보다 9.8이 더 작다고 잘못 판단하는 이유를 분석해보니, 성경 구절이나 9월 11일 등의 정보가 모델의 판단에 영향을 미쳤다는 것을 알게 되었습니다. 현재 사용되는 대화 모델(Large Language Models)에는 사용자들이 폭탄을 만드는 방법을 묻는 것 같은 부적절한 질문을 방지하기 위한 시스템 레벨에서의 프롬프트가 내장되어 있습니다. AI 모델의 '마음' 속의 특정 정보를 식별해내고 이를 완전히 비활성화시키는 것이 가능하다면, 심지어는 가장 교묘한 질문에도 폭탄 제조에 관한 응답이 아예 나오지 않게 할 수 있을 것입니다.
- SteveS