Share
Sign In

꿀벌닷컴

구글 딥마인드가 발표한 AI의 '마음' 해석 (Gemma Scope)
AI 기술의 발전은 정말 많은 분야에서 변화를 가져왔는데요, 이제는 로봇이나 약물 개발 뿐만 아니라 일상 생활 속에서도 우리가 AI를 마주할 일이 많아졌습니다. 하지만 AI가 어떤 메커니즘을 통해 기능하는지 자세히 알기 어렵다는 점 때문에, 이를 무작정 사용할 경우 예기치 않은 문제가 발생할 수도 있습니다. 이를 해결하기 위한 가장 최근의 연구 중 하나가 바로 구글 딥마인드의 Gemma Scope입니다. Gemma Scope는 AI 내부의 작동 원리를 이해하려는 시도를 하는데요, '메카니즘 해석 가능성(mechanistic interpretability)'이라는 분야의 연구 방법을 사용하고 있습니다. 이 방식은 AI의 내부 알고리즘을 역공학적으로 분석하여, 주어진 입력이 어떤 과정을 거쳐 최종 출력까지 도달하는지를 이해하는 것입니다. 즉, AI의 '마음'을 들여다본다고 할 수 있겠습니다. Gemma Scope는 '희소 오토인코더(sparse autoencoder)'라는 기법을 사용해 AI 모델의 각 계층을 분석합니다. 쉽게 말해 희소 오토인코더는 데이터의 효율적이고 일반화된 표현을 찾아내는 일종의 현미경이라고 할 수 있습니다. 모델이 특정 주제에 관한 질문(예: 치와와)에 응답할 때, '개'와 관련된 특징이 활성화되는 식으로, 모델의 각 계층을 확대하여 살펴볼 수 있습니다. 관련 연구들은 오픈소스로 공개되어 있어, Gemma와 희소 오토인코더는 전 세계의 연구자들이 그 결과를 분석할 수 있도록 설계되었습니다. 이를 통해 AI의 내부 로직에 대한 새로운 통찰을 얻을 수 있기를 기대하고 있습니다. 또한 희소 오토인코더는 비지도 학습 방법론을 사용하여, AI 모델이 인간 개념을 어떻게 분해하고 다시 조합하는지를 독립적으로 학습합니다. 이 과정에서 발견될 수 있는 흥미로운 특징 중 하나는 바로 '어색함(cringe)'이라는 특징인데요, 이 특징은 주로 텍스트나 영화에 대한 부정적 비평에서 발견됩니다. 이처럼 인간적 요소를 추적할 수 있다는 점은 아주 흥미롭습니다. 하지만 모든 특징을 추적하는 것이 간단한 일은 아닙니다. 예를 들어, 모델 내부에서 '속임수'를 저지를 때의 특징을 찾는 것이 쉽지 않다는 점이 있습니다. 특정한 속임수나 부정확한 정보 제공이 발생할 때, 어떤 특징이 활성화되는지를 명확히 밝혀내기 어렵습니다. 딥마인드의 연구는 어찌 보면 다른 AI 연구회사인 Anthropic의 사례와 비슷합니다. Anthropic은 'Golden Gate Claude' 프로젝트를 통해 샌프란시스코의 금문교와 관련된 특징을 찾아내고 이를 강조하여 AI 모델이 금문교 자체로 인식하게 만드는 실험을 했습니다. AI의 '마음'을 해석하는 연구는 단순히 독특한 퀴즈가 아니라, AI가 어떻게 일반화하여 사고하고, 어떤 수준의 추상화에서 작업하는지를 이해하는 데 매우 유용할 수 있습니다. Samuel Marks가 이끄는 팀은 희소 오토인코더를 사용해 특정 모델이 직업을 특정 성별과 연관짓는 특징을 찾아내어, 편견을 줄이기 위한 기능을 꺼내는 실험도 진행했다고 합니다. 기술 발전의 혜택으로서 이와 같은 연구는 AI가 왜 특정한 오류를 범하는지에 대해 더 깊은 통찰을 줍니다. 예를 들어 AI가 9.11보다 9.8이 더 작다고 잘못 판단하는 이유를 분석해보니, 성경 구절이나 9월 11일 등의 정보가 모델의 판단에 영향을 미쳤다는 것을 알게 되었습니다. 현재 사용되는 대화 모델(Large Language Models)에는 사용자들이 폭탄을 만드는 방법을 묻는 것 같은 부적절한 질문을 방지하기 위한 시스템 레벨에서의 프롬프트가 내장되어 있습니다. AI 모델의 '마음' 속의 특정 정보를 식별해내고 이를 완전히 비활성화시키는 것이 가능하다면, 심지어는 가장 교묘한 질문에도 폭탄 제조에 관한 응답이 아예 나오지 않게 할 수 있을 것입니다.
  • S
    Steve
AI 기반 검색 엔진과 퍼플렉시티 소송
최근에는 인공지능(AI) 기술이 다양한 분야에서 큰 변화를 일으키고 있는데요. 그중에서도 AI 기반 검색 엔진의 등장은 앞으로의 웹 생태계에 상당한 영향을 미칠 것 같습니다. 대표적으로 뉴스 코퍼레이션이 인기 AI 검색 엔진인 퍼플렉시티 AI를 상대로 제기한 소송 사건이 주목받고 있는데, 이는 AI 기술이 웹 정보 사용 방식에 미치는 영향을 잘 보여주는 사례입니다. AI 검색 엔진은 일반적인 AI 챗봇과는 다소 다른데요. 일반 챗봇은 저장된 정보를 바탕으로 질문에 답변하는 방식입니다. 하지만 AI 검색 엔진은 웹상의 다양한 출처에서 정보를 수집하고 이를 재구성하여 사용자에게 제공한다고 합니다. 예를 들어, 퍼플렉시티, 구글의 제미나이, 오픈AI의 서치GPT 등은 웹사이트, 연구 논문, 위키백과 문서, 유튜브 스크립트 등에서 정보를 가져와 사용자에게 짧고 유용한 요약을 제공하는데요. 이 과정에서 각 출처의 링크를 함께 제시하여 사용자가 원래의 정보를 쉽게 찾을 수 있게 해줍니다. 이러한 방식은 기존의 검색 엔진보다 사용자가 더 쉽게 정보를 얻을 수 있게 해주는데요. 검색 엔진을 통해 웹페이지를 찾아 일일이 클릭하고 읽어보는 대신, 요약된 정보를 바로 확인할 수 있기 때문입니다. 하지만 이를 위해 AI가 어떤 방식으로 출처를 선별하고, 정보를 재구성하는지가 중요해집니다. AI 검색 엔진의 등장은 웹 생태계 전반에 큰 변화를 불러일으킬 가능성이 높습니다. 기존의 검색 엔진은 사용자들이 정보를 직접 찾도록 도와주는 역할을 했는데, AI 검색 엔진은 사용자를 위한 정보를 직접 제공하기 때문에 웹사이트의 방문 수가 줄어들 수 있다는 우려가 생깁니다. 그래서 웹사이트 운영자들은 콘텐츠가 AI에 의해 요약되고 노출되면서 정작 자신들의 플랫폼 방문자는 감소하지 않을지 걱정하고 있습니다. 더 나아가, 뉴스 코퍼레이션과 같은 미디어 회사들은 자신들의 콘텐츠가 AI에 의해 무분별하게 사용될 가능성을 우려하여 소송을 제기하고 있는 상황입니다. 이는 AI가 제공하는 정보의 질과 신뢰성에 대한 문제도 상기시키는데요. AI가 결론을 도출하는 과정에서 원본 콘텐츠의 맥락을 잃을 수 있기 때문입니다. AI 검색 엔진은 다양한 출처에서 정보를 수집하기 때문에, 어떤 출처를 사용하는지가 상당히 중요합니다. AI는 여러 소스에서 얻은 정보를 조합해 요약본을 만들면서 각 출처의 신뢰도와 관련성을 기반으로 데이터를 선택해야 합니다. 이러한 출처 선정과정은 AI 알고리즘에 의해 자동화되며, 여기에서 공정성과 객관성을 유지하는 것이 필수적입니다. 하지만 때로는 AI가 비신뢰성 높은 소스에서 정보를 가져와 검색 결과를 왜곡할 위험도 있지 않을까 싶습니다. 따라서 AI 검색 엔진 개발자들은 사용자들에게 보다 믿을 수 있는 정보를 제공하기 위해 출처 관리에 신경을 써야 합니다. AI가 웹상 데이터를 어떻게 사용하는지에 대한 법적, 윤리적 문제도 중요합니다. AI가 다른 웹사이트의 콘텐츠를 가져와 사용할 때, 그에 대한 동의와 보상을 어떻게 처리할 것인지가 중요한 이슈로 떠오르고 있죠. 이번 뉴스 코퍼레이션의 소송은 이러한 법적 논의를 가속화하는 사건 중 하나로 여겨지고 있습니다. 결국 AI가 더 많은 데이터를 활용할 수 있도록 하기 위해서는 이 데이터의 원작자들에게 공정한 대가와 인정을 제공하는 체계를 마련하는 것이 필요해 보입니다. 결론적으로, AI 검색 엔진의 등장은 여러 측면에서 웹 생태계에 영향을 미칠 것으로 예상되며, 이러한 변화가 어떻게 전개될지 주목할 필요가 있습니다. 특히, 새로운 AI 기술이 웹의 정보 구조와 사용자 경험을 어떻게 변화시킬지, 그리고 그에 대한 사회적, 법적 대응이 무엇이 될 것인지에 대해 지속적인 관심과 논의가 필요할 것 같습니다. 출처: https://www.technologyreview.kr/%ec%9b%b9-%ec%83%9d%ed%83%9c%ea%b3%84%eb%a5%bc-%ec%9c%84%ed%98%91%ed%95%98%eb%8a%94-ai-%ea%b2%80%ec%83%89/
  • S
    Steve
아프리카에서의 AI
지금 아프리카는 새로운 AI 혁명의 문턱에 서 있는데요, 이 대륙은 AI 기술을 통해 다양한 산업에서 잠재적으로 거대한 변화를 일으킬 수 있을 것 같습니다. 아프리카는 대륙 특유의 사회적, 경제적 문제를 해결하기 위해 AI를 포용하려는 움직임이 매우 활발한데요, 많은 도전 과제를 안고 있는 것이 현실입니다. 특히, 언어 장벽과 후진적인 인프라로 인해 AI 발전은 여러 장애물에 부딪히고 있습니다. 그러나 AI를 활용한 해결책이 없었던 건 아닙니다. 예를 들어 남아프리카 공화국에서는 HIV 문제를 해결하기 위해 큰 언어 모델(LLM) 기반 챗봇이 장착된 앱 'Your Choice'가 개발되었는데, 이 앱은 환자들의 민감한 정보를 비밀스럽고 비판 없이 수집할 수 있는 기능을 제공합니다. 케냐에서는 농부들이 AI 앱으로 작물의 질병을 진단하고 생산성을 높이고 있고, 나이지리아의 AI 스타트업 'Awarri'는 최초의 대규모 언어 모델을 구축하고 있어 나이지리아 언어를 AI 도구에 통합하려 하고 있습니다. 아프리카 대륙에서 드물게도, 아프리카 언어를 다룰 수 있는 AI 모델 개발이 중요한데요. AI 개발자들이 자국의 언어와 문화에 맞춘 솔루션을 개발하지 않으면, 서구의 AI 시스템은 아프리카 사회의 맥락과 문화를 이해하지 못하여 제대로 작동하지 않기 때문입니다. 예를 들어, Lelapa AI는 아프리카 언어를 위한 데이터 세트와 자연어 처리(NLP) 도구를 개발하는 회사로, 이러한 언어 장벽을 타파하려고 노력 중입니다. 최근 발매된 InkubaLM은 남아프리카 공화국에서 사용되는 여러 언어를 인식할 수 있는 AI 도구로, 아프리카 언어를 기반으로 하는 AI 발전을 위한 중요한 첫걸음입니다. 하지만 여전히 정보화 사회로의 전환은 더딘 편입니다. 아프리카 대학의 정보학부가 충분히 자금 지원을 받지 못하고 있어 관련 인력을 양성하는 데 어려움이 큽니다. 게다가 아프리카 정부들은 기술 개발에 필요한 데이터를 비싸게 판매하기도 해 연구자들의 접근을 어렵게 합니다. 아프리카 AI 발전을 위한 중요한 이슈 중 하나는 바로 규제와 정책의 부재입니다. 55개 아프리카 나라 중 AI에 대한 공식 전략을 보유한 나라는 7개에 불과합니다. 다양한 이해관계자들 간의 견해 충돌로 인해, 대륙 차원의 통합된 AI 전략이 부재한 점이 연구자들에게 큰 스트레스를 주고 있습니다. 일부 연구자들은 아프리카 고유의 시각과 가치관을 담보로 하지 않은 외부 전략에 상당한 불만을 표명하고 있습니다. 이에 대한 주요 회의로 Deep Learning Indaba가 있는데요, 이는 2017년에 설립되어 아프리카 AI 연구자들에게 교육과 자원을 제공하고 있습니다. Deep Learning Indaba는 아프리카의 AI 연구 장면이 어떻게 따뜻한 변화를 맞이하고 있는지를 보여주는 중요한 예시입니다. 많은 연구자들이 이 회의에 참석하여 연구 논문 발표와 네트워킹을 통해 자신들의 성과를 널리 알리고 있습니다. 지속적인 외국 자본의 투입과, 그에 따른 서구의 영향력이 비판받고 있는 한편, 이 회의는 아프리카 연구자에게 탁월한 기회를 제공하고 재정 지원을 이어받을 수 있는 연결고리가 되어 왔습니다. 그러나 이러한 외국 자본의 영향력이 상당수 존재하면서 논의 주제와 초청 연사가 그들에 의해 좌우될 수 있다는 우려도 무시할 수 없습니다. 그렇지만 긍정적인 면도 있는데요, 최근 Google은 케냐, 나이지리아, 남아프리카에서 AI 교육 이니셔티브 지원을 위해 약 580만 달러를 기부하는 등 여러 글로벌 기업이 교육 기회와 자원을 제공하고 있습니다. 하지만 근본적으로 아프리카 정부들 자체가 현지 AI 이니셔티브를 더 지원해야 할 필요가 큽니다. 이처럼 아프리카는 특별히 AI 혁신을 통해 변화를 이루어낼 준비가 되어 있는 곳입니다. 모든 장애를 극복하며 AI를 현지의 문화와 언어에 맞추어 발전시키려는 노력이 계속되고 있습니다. 아프리카가 AI 분야에서 자리매김할 수 있을지 지켜보아야 겠습니다. 참고: https://www.technologyreview.com/2024/11/11/1106762/africa-ai-barriers/
  • S
    Steve
아마존과 앤트로픽, 트레이니엄(Trainium)
최근 화제가 된 아마존과 앤트로픽 간의 협상 소식에 대해 이야기해볼까 합니다. 우리가 평소 접하는 클라우드 서비스 운영에서 핵심적인 역할을 하고 있는 AI 칩이, 이번 협상을 통해 어떻게 변할 수 있을지 아주 중요한 주제라고 생각합니다. 먼저 아마존은 작년에도 앤트로픽과의 대규모 투자 계약을 체결했었습니다. 이번에는 아마존이 개발한 AI 칩인 "트레이니엄(Trainium)"의 사용을 조건으로 협상이 진행되고 있다고 하죠. 이 '트레이니엄' 칩이 무엇이냐, 그냥 GPU랑 다를 게 뭐냐 궁금할 텐데요. 쉽게 말해서, AI 작업에 특화된 프로세서라고 보면 됩니다. 일반적인 GPU와는 다르게 트레이니엄은 AI 모델 학습을 더 빠르고 효율적으로 할 수 있도록 설계된 칩입니다. 물론 엔비디아의 CUDA 같은 강력한 소프트웨어 생태계를 갖추고 있지 않아서 사용에 제약이 있을 수 있지만요. 그럼 왜 아마존은 굳이 앤트로픽에게 자사의 칩을 사용하게 하려는 걸까요? 이는 단순히 자사의 제품을 홍보하려는 것이 아닙니다. AI 산업에서는 상대적으로 저렴하고 효율적인 칩을 통해 대규모 데이터센터를 운영하고, 또 AI 모델을 효율적으로 학습시키는 것이 굉장히 중요합니다. 엔비디아의 칩은 뛰어난 성능을 자랑하지만 그만큼 비용이 높습니다. 따라서 아마존 입장에선 자사 칩을 널리 사용하게 함으로써 비용 효율성을 높이고, 장기적으로는 엔비디아에 대한 의존도를 낮추려는 전략인 것이죠. 탄탄한 하드웨어와 클라우드 인프라를 보유한 아마존이기 때문에, 이 전략이 큰 효과를 발휘할 가능성이 큽니다. 하지만 쉽지 않은 길이기도 합니다. 앤트로픽은 이미 엔비디아 칩에 속해있는 상태이기 때문에, 쉽게 아마존의 칩으로 갈아타지 않으려 할 겁니다. 그뿐만 아니라, 엔비디아의 강력한 소프트웨어 프레임워크인 CUDA가 있기 때문에, 엔비디아의 칩이 여전히 인기가 있는 상황입니다. 이 협상이 성공적으로 이루어진다면, 이를 통해 AI 칩 시장은 더욱 다변화될 것으로 보입니다. 더불어 아마존-앤트로픽 간의 파트너십은 마이크로소프트-MSA의 관계처럼 강해질 가능성이 높습니다. 이와 같은 대규모 인프라 협력은 기업들 간의 경쟁뿐만 아니라, AI 기술의 발전에도 영향을 미칠 것으로 예상됩니다. 계획대로 실행된다면, 아마존은 엔비디아에 대한 의존도를 줄임으로써 자사의 클라우드 서비스에서 더욱 독립적인 운영을 지속할 수 있게 될 것입니다. 어떤 결과가 나올 지 주의 깊게 지켜보아야겠습니다. 참고: https://aws.amazon.com/ko/ai/machine-learning/trainium/ https://www.aitimes.com/news/articleView.html?idxno=165126
  • S
    Steve
AI Peer table
미래에셋 리포트에서 각 기업이 AI 밸류체인에서 수행하는 역할과 관련된 코멘트를 포함한 표가 있어 공유합니다. 리포트의 전체 내용은 글 하단의 링크에 달아두었습니다. 출처: 미래에셋 리포트
  • S
    Steve
Meta 가 발표한 촉각 인식 AI
로봇 공학 AI 에이전트를 개발하고 있는 Meta의 Fundamental AI Research(Fair) 팀이 촉각 인식 기술을 발표했습니다. 촉각은 인간이 물리적 세계와 상호작용하는 데 가장 기본적이고 중요한 감각인데요. 이제 AI 시스템도 이러한 촉각을 통해 기존에는 불가능했던 방법으로 물질을 이해하고 다룰 수 있게 되었습니다. 예를 들어, 로봇이 시각으로는 인식할 수 없는 사물의 물리적 특성을 촉각으로 이해하고, 이를 바탕으로 더 정확하게 조작할 수 있게 됩니다. 이는 제조업이나 의료 분야 등 여러 산업에서 복잡한 작업을 자동화하는 데 큰 도움이 될 것입니다. Meta가 공개한 Sparsh는 모든 종류의 비전 기반 촉각 센서와 다양한 작업에 적용할 수 있는 범용 인코더로, 레이블이 필요 없는 자가 지도 학습(SSL)을 활용합니다. 이는 기존에 비해 훨씬 더 광범위한 데이터에 대한 대응력을 가지며, 여러 작업에서 약 95% 이상의 성능을 보입니다. 이와 더불어 Digit 360은 인간 수준의 촉각 인식 능력을 지니고 있는 인공 손가락 센서입니다. 이 센서는 환경의 진동, 온도, 심지어 냄새까지 감지할 수 있는 18개의 다양한 감지 기능을 가지고 있어 연구자들이 보다 정교한 촉각 인식 연구를 수행할 수 있도록 해줍니다. 또한, Digit Plexus 플랫폼은 촉각 센서를 단일 로봇 손에 통합할 수 있는 표준화된 하드웨어-소프트웨어 솔루션을 제공해 주는데요. 이는 복잡한 데이터 수집, 제어, 분석 과정을 단일 케이블로 가능하게 만들어 줍니다. 이러한 획기적인 촉각 인식 기술은 Meta가 GelSight Inc와 원익로보틱스와 같은 산업 리더들과 협력하여 개발, 상용화됩니다. GelSight Inc는 융합 기술을 통하여 연구자들이 이 기술을 연구에 적극 도입할 수 있도록 지원할 것이며, 원익로보틱스는 Allegro Hand의 다음 세대 모델을 개발하여 보다 손쉽게 실험을 진행할 수 있도록 할 예정입니다. Meta는 인간-로봇 협력을 연구하기 위해 PARTNR이라는 새로운 기준을 발표했는데요. 이는 가정 환경과 같은 주요 시나리오에서 로봇과 인간 간의 상호작용을 평가하기 위한 표준화된 프레임워크입니다. 이를 통해 AI 모델이 단순한 '에이전트'가 아니라 인간과의 '파트너'로서의 역할을 수행할 수 있도록 발전시킬 계획이라고 합니다. 촉각 기술이 상용화되면, 의료, 제조업, 에너지 등 다양한 분야에서 응용 가능할 거라 생각합니다. AI 시스템이 각 분야에 어떻게 활용될지 지켜봐야겠습니다. 참고: Meta FAIR 블로그: Advancing embodied AI through progress in touch perception, dexterity, and human-robot interaction Sparsh 연구논문: Sparsh: Self-supervised touch representations for vision-based tactile sensing Digit 360 관련 사이트: Meta Digit 360
  • S
    Steve
MIT 연구진이 발표한 로봇 훈련 방법 HPT
MIT 연구진이 HPT(Heterogeneous Pretrained Transformers) 라는 새로운 로봇 훈련 방법을 발표했습니다. 이 방법은 로봇 분야에 큰 혁신을 가져올 것으로 기대되고 있습니다. 전통적으로 로봇을 훈련시키는 데는 많은 시간이 소요되고, 비용도 많이 듭니다. 각 로봇과 과제에 맞춰서 데이터를 개별적으로 수집해야 하기 때문인데요. 이는 시간과 자원을 많이 소모하게 됩니다. 그리고 새로운 작업이나 환경에 적응하기 어렵다는 한계도 있습니다. HPT는 여러 소스로부터 제공되는 다양한 데이터를 한 시스템에서 통합하는 기술입니다. 이 기술은 직접적인 데이터를 수집하지 않아도 여러 형태의 데이터(예: 카메라 이미지, 언어 지시, 깊이 지도 등)를 공통의 '언어'로 변환시킵니다. 쉽게 말해서, 다양한 데이터를 한 군데 모아 하나의 거대한 지식체로 만든다고 생각하면 됩니다. 여기서 변환기 모델(Transformer model)이 등장합니다. 이 모델은 요즘 인공지능 분야에서 핫한 기술인데요, 고급 언어 모델을 지원하는 데 사용됩니다. HPT는 이 변환기 모델을 사용하여 로봇의 시각적, 자기 수용적 입력을 처리합니다. 여기서 자기 수용적 입력이란 로봇이 자신의 위치와 움직임을 인지하는 능력을 말합니다. 현실과 시뮬레이션 환경에서 20% 이상 성능 향상을 보인다고 합니다. 이는 HPT를 통해 로봇이 훈련 데이터와 다른 작업을 만났을 때도 우수한 성과를 보이는 것을 의미합니다. 특히, HPT는 로봇의 자기 수용적 인식(자신의 위치와 움직임에 대한 인식)을 시각적 정보와 동등하게 중요하게 다룸으로써 더욱 정교한 동작을 가능하게 합니다. HPT는 다양한 경험을 학습할 수 있는 데이터 셋을 갖추고 있는데요. 연구팀은 사전 훈련을 위해 52개의 데이터 셋과 20만 개가 넘는 로봇 경로를 사용했습니다. 이 데이터를 통해 인간의 시연과 시뮬레이션을 포함한 여러 경험을 배우게 됩니다. 연구팀은 HPT의 기능을 강화하여 라벨이 없는 데이터도 처리할 수 있도록 할 계획입니다. 궁극적으로 '보편적인 로봇 두뇌'를 만들어 어떤 로봇에서도 별도의 훈련 없이 사용할 수 있도록 하는 것이 목표라고 합니다. 현재는 초기 단계에 있지만, 이 기술이 더 발전하면 자연어 처리 분야에서의 큰 발전과 유사한 혁신적 결과를 가져올 수 있을 것으로 기대됩니다. 이 새로운 기술은 로봇 훈련 방식을 완전히 변화시킬 잠재력을 가지고 있습니다. 로봇공학 분야에 종사하는 개발자분들이라면, 이 기술을 주목할 필요가 있을 것 같습니다. 참고: MIT breakthrough could transform robot training 논문 전문 보기: Paper PDF
  • S
    Steve
AI가 생성한 마인크래프트의 미래: 실시간 비디오 생성의 혁신
AI의 발전이 가져올 새로운 변화를 소개하려고 합니다. 특히, 소프트웨어 개발자 분들에게 흥미롭고 가치 있는 주제인데요. 바로 AI가 실시간으로 생성하는 비디오, 그 중에서도 'AI가 생성한 마인크래프트'에 대해 알아보겠습니다. 먼저, 백그라운드부터 시작하겠습니다. 우리가 아는 마인크래프트는 주로 코딩과 스크립팅을 통해 만들어지지만, AI 회사인 디카르트와 에치드에서는 오직 클립과 키보드 입력만으로 마인크래프트의 새로운 버전을 창출했습니다. 이 버전은 전혀 코딩 없이 AI가 실시간으로 생성하는 게임인데요, 사용자가 게임에서 하는 행동들에 따라 화면이 계속해서 변합니다. 예를 들어, 사용자가 나무를 베고 블록을 놓으면, 그 블록이 다른 환경으로 변할 수 있습니다. 이는 전통적인 마인크래프트에서는 볼 수 없는 현상입니다. 이러한 기술은 '차세대 프레임 예측'이라는 기법을 통해 실현되었습니다. 오아시스라는 모델이 수백만 시간의 마인크래프트 플레이와 사용자 행동을 학습하여, 물리학, 환경, 컨트롤을 데이터로부터 정리하게 된 것입니다. 다시 말해, AI가 게임의 메커니즘을 이해하게 된 것이지요. 하지만, 이 모델은 아직 완벽하지 않아서 그래픽 품질이 낮거나 이상한 오류가 발생할 수 있습니다. 그러나 하드웨어와 칩 설계의 혁신이 이를 개선할 가능성을 열어두고 있어요. 이러한 발전이 특히 눈에 띄는 점은 사용자 인터페이스에 변화입니다. 사용자는 말 그대로 모델에게 “여기에 날아다니는 유니콘을 추가해줘”라거나, “모든 것을 중세 시대로 바꿔줘”와 같은 명령을 내릴 수 있습니다. 즉, 직접적인 명령을 통해 게임 환경을 손쉽게 변형할 수 있는 시대가 열리고 있는 것입니다. 현재의 제약 중 하나는 하드웨어 문제입니다. 개발 초기 모델은 엔비디아 카드에 의존했지만, 미래에는 에치드가 개발 중인 새로운 카드인 소후(Sohu)를 사용할 계획이라고 합니다. 에치드는 이 칩이 성능을 10배까지 향상시킬 것이라 주장하며, 이는 실시간 비디오生成 비용과 에너지를 크게 줄여줄 것이라고 합니다. 또한 더 많은 사용자들이 동시에 모델을 사용할 수 있게 될 것입니다. AI 맞춤형 칩 설계는 성능 향상과 에너지 효율성을 크게 높일 수 있습니다. 에치드의 카드는 복잡한 수학적 연산을 더 효율적으로 처리할 수 있는 단일 코어를 사용한다고 합니다. 이를 통해 트레이닝 대신 예측에 중점을 둔 칩 디자인을 강조하고 있습니다. 에치드와 디카르트는 이러한 기술들을 통해 가상 의사나 가상 튜터를 생성하는 것도 가능할 것이라고 생각합니다. 이러한 기술은 새로운 아키텍처와 하드웨어가 뒷받침될 때 더욱 빛을 발하게 될 것입니다. 지금은 디카르트와 에치드의 마인크래프트 버전을 체험할 수 있는 데모가 제공되고 있습니다. 만약 AI와 실시간 비디오生成의 미래에 더 관심이 있다면, 아래 링크들을 통해 더 많은 정보를 알아보세요. MIT 기술 리뷰 오아시스 공식 사이트
  • S
    Steve
AI가 생성한 마인크래프트
마인크래프트는 창의성과 자유도가 높은 오픈월드 게임으로 많은 이들에게 사랑받고 있죠. 그런데, 이번에 AI 기업인 Decart와 Etched에서 완전히 AI로 생성된 마인크래프트 버전을 공개했습니다. 이 게임은 기존의 코드 기반 게임이 아닌, AI 기술을 이용해 실시간으로 생성됩니다. AI-생성 마인크래프트는 말 그대로 AI가 모든 게임 환경과 플레이 요소를 실시간으로 생성하는 게임입니다. Decart와 Etched에서는 이를 'next-frame prediction'이라는 기술을 통해 구현했는데요. 이 기술은 마인크래프트 플레이 데이터와 유저의 행동을 수백만 시간 동안 학습하여 게임의 물리 환경과 제어 기능을 스스로 이해합니다. 아래 사이트에서 직접 플레이해볼 수 있습니다. https://oasis.decart.ai/ 이 프로젝트는 단순히 기술적 데모 이상의 의미를 갖고 있습니다. Decart의 공동 설립자 Dean Leitersdorf에 따르면, 이 기술은 실시간 비디오나 게임을 제작하는 데에 무궁무진한 가능성을 제시합니다. 예를 들어, "여기에 날아다니는 유니콘을 추가해줘"라고 말하면 AI가 이를 실시간으로 구현할 수 있습니다. 또한, 사용자가 이미지로 직접 새로운 게임 환경을 생성할 수도 있습니다. 현재 이 AI-생성 게임 프로젝트의 가장 큰 제한 요소는 하드웨어입니다. 지금은 Nvidia 카드로 구혔했는데, 향후 Etched에서 개발 중인 'Sohu' 카드를 사용되면 성능이 10배 개선될 것이라고 합니다. 이러한 성능 향상은 더 길고, 더 안정적인 게임 플레이를 가능하게 합니다. 뿐만 아니라, 여러 사용자가 동시에 모델을 사용할 수 있게 되므로 게임의 사회적 경험도 확장될 것으로 예상됩니다. 다만, 하드웨어 성능이라는 큰 과제는 여전히 남아 있습니다. 새로운 하드웨어가 도입되기 전까지는 명확한 성능 개선이 이뤄질 수 없기 때문입니다. AI-생성 게임의 가장 큰 장점은 비용 절감과 효율성입니다. AI 전용 맞춤형 칩이 개발되면, 더 적은 자원으로 고성능의 게임 환경을 제공할 수 있습니다. 이는 장기적으로 개발자들이 더 많은 시간을 게임의 창의적인 요소에 투자할 수 있도록 해줍니다. 더 나아가 비디오 게임을 넘어, 가상 현실 병원이나 가상 튜터링 시스템을 구현할 수 있는 날이 올 수 있을 것이라 생각합니다. AI-생성 마인크래프트는 게임 개발의 새로운 장을 열고 있습니다. 아직 해결해야 할 기술적 과제들이 남아있지만, 그 잠재력은 매우 크다고 생각합니다. 단순한 게임 이상으로 산업 전반에 걸쳐 혁신을 가져올 수 있지 않을까 기대가 됩니다. 더보기:
  • S
    Steve
OpenAI의 새로운 모델, o1
최근 OpenAI에서 발표한 새로운 인공지능 모델이 분야에서 큰 화제를 모으고 있습니다. 이름하여 'o1' 모델입니다. 이번에 새롭게 공개된 OpenAI o1 모델은 기존의 언어 모델과는 차원이 다릅니다. 언어 처리에 강력한 GPT-4o와 달리, o1 모델은 다단계 추론에 특화되어 있습니다. 그러니까 어려운 수학 문제나 코딩 작업, 그리고 기타 과학, 기술, 엔지니어링 및 수학(즉, STEM) 관련 이슈들에 대해 문제를 풀어내는 능력이 뛰어난 모델이라는 뜻입니다. 여기서 가장 주목할 점은 o1 모델이 '연속적 사고(chain of thought)' 기술을 사용한다는 것입니다. 즉, 이 모델은 스스로의 실수를 인지하고 수정하며, 복잡한 절차를 보다 간단하게 분해하고, 기존 접근 방식이 효과적이지 않을 때는 다른 방법을 시도할 줄 압니다. 이는 단순한 언어 처리를 넘어 문제 해결의 차원으로 발전할 가능성을 보여줍니다. OpenAI가 진행한 테스트에 따르면, o1 모델은 코딩 대회에서 89%의 성과를 기록, 미국 수학 올림피아드의 상위 500등 안에 드는 정도의 실력을 가진 것으로 나타났습니다. 뿐만 아니라, o1 모델은 천체 물리학, 유기 화학 등 다양한 분야에서 박사 과정 수준의 질문에도 높은 정확도로 대답할 수 있습니다. 수학 올림피아드 문제에서 o1 모델은 이전 모델인 GPT-4o의 13.4%와 비교하여 무려 83.3%의 정확도를 보였습니다. 또한, 박사 수준 질문에서는 인간 전문가들의 69.7% 보다 뛰어난 78%의 정확도를 기록하기도 했습니다. 이번 OpenAI의 o1 모델 출시는 소프트웨어 개발자들에게 몇 가지 중요한 시사점을 제공합니다. 우선, 기존의 언어 중심 AI 기술의 한계를 넘어서, 문제 해결에 더욱 유용한 도구가 등장했음을 의미합니다. 이는 개발자가 보다 복잡하고 도전적인 문제들을 해결하는 데 있어 강력한 지원군이 될 수 있습니다. 예를 들어, o1 모델은 복잡한 코드의 오류를 수정하거나 최적화하는 데 유용할 것입니다. 또한, 새로운 알고리즘을 개발하거나 테스트할 때 모델이 제공하는 사고 체계를 통해 더 나은 해결책을 찾을 수 있을 것입니다. 그렇다면 o1 모델이 실제로 개발자들에게 어떠한 도움이 될 수 있을까요? 현재로서는 고도의 계산이 필요한 작업이나, 복잡한 알고리즘 테스트, 오류 수정 등에 활용될 수 있을 것입니다. 특히 이 모델의 연산 사고 능력은 개발자들이 마주하는 다양한 문제를 해결하는데 있어서 상당한 이점을 제공할 것입니다. 하지만 한 가지 주의해야 할 점은, o1 모델이 저렴하지 않다는 것입니다. 최고 수준의 성능을 활용하고자 한다면 적지 않은 비용이 들 수 있습니다. 이에 따라, o1 모델의 활용은 특정 고급 작업에 한정될 가능성이 높습니다. 결론적으로, OpenAI의 새로운 o1 모델은 소프트웨어 개발의 방식에 혁신을 가져다줄 가능성이 있습니다. 단순한 언어 처리에서 벗어나 실질적인 문제 해결 도구로서의 가능성을 열어준다는 점에서 앞으로의 발전과 활용이 더욱 기대됩니다.
  • S
    Steve