Skip to main content

 

<인터뷰 원문>

 

진행 : 디일렉 한주엽 대표

출연 : 네이버클라우드 권세중 리더

 

-저희가 7월 11일부터 12일까지 ‘세상을 바꿀 첨단 기술 디일렉 딥테크 포럼’을 개최를 합니다. AI라든지 전기차라든지 메타버스 분야와 같은 다양한 주제에 대해서 얘기를 할 텐데. 오늘은 권세중 네이버클라우드 리더 님을 모시고 AI 반도체 설계에 대한 얘기를 해보도록 하겠습니다. 리더님 안녕하십니까.

“안녕하십니까.”

-이번에 딥테크 포럼에서 발표해 주실 주제가 ‘초 거대 언어 모델 분석에서 시작하는 AI 반도체 설계’ 라고 되어 있는데. 제목만 봤을 때는 네이버클라우드에서도 반도체 설계를 하는 것인가에 대한 궁금증이 있거든요?

“저희가 여러 차례 기사가 나갔듯이 그런 부분에 대한 질문을 참 많이 받았었고요. 정확히 얘기하자면 네이버클라우드의 반도체를 설계할 수 있는 그만큼의 많은 인력이 존재하는 것은 당연히 아니고요. 저희가 그런 인력을 한 번에 모을 수 있는 것도 아니기 때문에. 저희가 한다기보다는 그게 가능한 하드웨어를 잘 하는 협력 대상과 함께 그 일을 하는 게 맞다고 본 것이고요. 그리고 그 일을 작년부터 삼성전자 메모리 사업부와 함께 메모리 중심의 뭔가 변화를 일으켜보자라는 차원에서 반도체 솔루션을 좀 더 큰 그림에서 AI 반도체 솔루션을 만들어보자 라고 사업을 시작했던 것이고요. 지금 협력 관계에 있습니다.”

-초거대 언어 모델. 초거대 언어 모델이라고 하면은 챗GPT 같은 걸 얘기하는 겁니까?

“가장 쉽게는 챗GPT를 예로 들 수 있을 것 같고요. 더 거슬러 올라가면 GPT3라든지 몇몇 기술적으로 중요한 족적들이 있었고. 저희 회사도 마찬가지로 ‘하이퍼클로바’라는 초 거대 언어 모델을 이미 2년도 넘은 시점에서 발표하고 준비를 계속해서 해오고 있었고요. 실제로 많은 서비스들에 적용이 되고 있었습니다. 네이버 내부의 서비스에도 사용을 하고 있었고. 유명하게는 최근에 뤼튼 같은 유명한 회사들이 잘 사용을 계속해서 해오고 있는 모델이 있고요. 그 모델이 저희도 계속해서 발전시키는 중이었고. 그러던 와중에 챗GPT와 함께 많은 상황이 변하다 보니 또 그에 걸 맞는 모델을 곧 출시할 계획들을 가지고 있는 상황입니다.”

-GPT를 오픈AI라는 회사에서 운영을 하고 있고. 외신이나 이런 게 나온 거 보면 인프라를 어떻게 구성돼 있는지 전기를 얼마만큼 쓰는지 이런 내용들도 또 있더라고요. 근데 일반적으로 알려져 있는 사실들은 엔비디아의 GPU를 활용을 하고 CUDA를 활용해서 이걸 구현하는 걸로 돼 있는데. 지금 네이버클라우드와 삼성전자는 다른 방식으로 하겠다는 겁니까?

“굉장히 많은 얘기들을 방금 하신 질문에서 쌓아 나가야 되는데요. 네이버와 삼성전자가 무엇을 하겠다라고 저희가 함부로 말씀드리는 건 적절치 않을 것 같고요. 그것보다는 더 원론적인 얘기로 말씀을 드리면 또 혹은 제가 곧 있을 포럼에서 발표할 내용도 마찬가지로 그런 내용입니다만, 현재 A100 혹은 H100 GPU 위주로 되어 있는 추론을 위한 인프라 스트럭처는 트레이닝을 위해서 만들어진 것들입니다. 그러다 보니 그걸 그대로 인퍼런스로 가지고 왔을 때. 서비스 수요가 폭발하는 만큼 인퍼런스를 하기 위한 서빙 인프라의 설비 양을 폭발시켜야 되는데 그걸 따라가기에 스케일업이 어려운 상황이고요.”

-기존 거는 그거는 어렵습니까?

“아무래도 HBM을 사용한다는 점 그러니까 HBM(하이 밴드위스 메모리)를 사용하기 때문에 오는 파워 문제나 수율 문제나 이런 것들로 인해서 지금도 당연히 쇼티지(공급부족)가 난 상황이잖아요.”

전 세계적으로 A100과 H100을 구하고 싶어서 난리가 난 상황인데도 불구하고. 그만큼 물량을 뽑아내지 못하는 것은.

-GPU 물량을요?

“GPU 물량을 뽑아내지 못하는 것은 당연히 아무래도 HBM 문제가 제일 클 것이라고 생각을 하고요. 또 그 HBM 문제가 해결이 되더라도 1대의 A100 시스템이 먹는, DGX 시스템이 소모하는 파워량이 워낙 크기 때문에 데이터 센터에 충분한 양을 채워놓기도 어렵습니다. 그러다 보니 그런 솔루션들로는, 물론 지금 가장 효율적이고 가장 저희가 선택하기에 가장 적절한 시스템은 A100이 맞습니다. A100보다 지금 더 좋은 시스템은 없고요. 물론 H100이 더 높은 성능을 가지고 있지만 그만큼 비싸고 그만큼 파워도 더 많이 먹기 때문에.”

-발표하실 자료를 잠깐 제가 봤는데 A100 같은 경우가 400W.

“하나의 GPU가 400W.”

-H100은 700W.

“그렇습니다.”

-이 정도면 엄청 많이 먹는 겁니까?

“제가 인프라 전문가는 아니라서 부분에 있어서는 조금 비전문가일 수 있습니다만, 사실상 일반적인 데이터센터 랙이 있다라고 하면요. H100은 1대 들어가는 수준이니까요. 그 큰 공간이 텅텅 비는, 그래서 오히려 이 공간을 어떻게 구할까부터 고민해야 되는 그런 문제들이 생깁니다. 그러다 보니 당연히 저희가 이 문제를 2년 전부터 같이 고민을 했고요. 저희는 이 라지 랭귀지 모델의 시대가 온다고 믿었고. 그 시대를 준비하고자 하는 차원에서 혹은 또 제가 속한 팀이 그런 차원에서 만들어진 팀이고요. 제가 속한 팀은 하이퍼스케일 AI라는 조직의 이피션시라는 팀인데. 진작부터 이 에너지 효율이나 아니면 공간 효율이나 이 모든 효율적인 문제 AI 모델을 다루면서 어떻게 하면 이걸 더 효율적으로 만들 것인가 이런 고민을 사실 2년 전부터 하고 있었고 그 고민에 연장으로 계속 이 고민을 했던 것이죠. 이거 나중에 분명히 서비스 수요가 폭발하는 순간에 우리 이거 대응할 수가 없다. 그러면 어떤 것을 가져와야 이게 대응이 될 것인가 라는 차원의 고민을 계속해서 한 것이고. 그 고민에 알맞는 방법을 혹은 그에 걸맞는 솔루션을 찾고자 했으나 찾지 못하고 그럼 결국 우리가 생각하는 정답대로 만들어야겠다는 결론에 이르렀던 것이죠.”

-말하자면 시중에서 판매하는 그런 게 아니라 우리가 원하는 어떤 거를 직접 만들어서 쓰자 이런 의미입니까?

“그렇죠. 그것에 가깝고 그리고 그 방향은 결국 AI 모델과 시스템을 같이 고민하는 것부터 시작을 해야 된다 라고 생각을 한 것이고요. 아무래도 하드웨어 회사들은 범용적인 걸 만들 수밖에 없습니다. 그리고 사실 이렇게 라지 랭귀지 모델의 시대가 온다고 예측한 사람들도 많지 않았고요. 대부분의 분들은 작은 모델 위주의 시장을 사실 먼저 공략하려고 하셨던 것이 사실입니다. 그래서 대부분 1빌리언 이상의 모델이 나오지 않을 거라고 생각하시는 분들이 많았던 것 같고요.”

-1빌리언은 어디에 기준에 맞춘 겁니까?

“모델 사이즈, 모델 파라미터 개수가 1빌리언이 넘지 않는 모델들이 나온다고 생각을 많이 하셨던 것 같습니다. 지금 GPT3라고 불리는 친구가 175빌리언 정도 하거든요. 그리고 요즘 라마 같은 경우는 제일 큰 모델이 65빌리언 정도 그리고 요즘 오픈소스 개통해서 많이 쓰시는 모델들이 한 7빌리언이나 13빌리언 정도 됩니다. 그러니까 그 정도 모델의 시대가 오지 않을 거라고 혹은 나중에 올 거라고 생각을 하시고 접근하는 측면이 많았다 보니 저희가 찾는 솔루션은 사실 적합하지 않았었고요. 다만 요즘에 이 시대가 오고 나니까 ‘챗GPT 모먼트’라고 불리는 이 시대가 오고 나니까 많은 분들이 피봇팅을 하고 계신 것 같고 사실 그런 부분에 대해서도 기대가 있습니다. 꼭 저희가 만드는 것뿐만 아니더라도 저희가 하고자 하는 방향이 아니더라도 좋은 솔루션이 나오고 좋은 칩이 나와서 저희의 고민을 해결할 수 있으면 저희는 당연히 네이버클라우드로서 그걸 구매할 의무가 있고 이유가 있는 것이잖아요. 그래서 저희는 지금도 계속 사실 그걸 찾는 작업도 같이 하고 있는 와중이고요.”

-찾기도 하지만 지금 만들기도 하고 있고.

“그걸 저희는 같이 해야 되는 상황인 거죠. 뭐라도 해야 되는 상황이라서 지금도 동시에 지금 있는 엔비디아 GPU도 어떻게 하면 우리가 효율적으로 잘 써서 최대한 적은 비용으로 서비스를 할 수 있을까 혹은 저희의 기술을 저희의 서비스를 사용하고자 하는 분들에게 어떻게 하면 더 저렴하게 제공할 수 있을까라는 고민도 동시에 같이 하고 있고요.”

-그러면 일부 서비스를 지금 하고 계시잖아요. 지금 인프라는 비슷한 솔루션으로 하고 계신 겁니까?

“그건 전부 다 A100 같은 걸로 돌고 있다고 보시면 됩니다.”

-지금 상황에서 사용자가 확 몰리면 대응할 방안이 없다는 거죠?

“일단 저희가 8월에 출시할 서비스들에 대해서 대응하기 위한 방안들을 당연히 마련하고 있는 거고요.”

-8월에 뭘 론칭하시죠?

“하이퍼클로바X(HyperCLOVA X)를 론칭할 때에 그 대응들은 당연히 하고 있고 그 대응되는 범위 안에서 사실은 또 론칭을 할 테고요. 그 부분에 대한 고민은 사실 계속해서 준비를 하고 있습니다. 가장 저희가 많이 고민해왔던 부분들이기 때문에.”

-오픈AI의 챗GPT가 갑자기 막 언론 보도에서 엄청 뜨고 주변에 사람들이 문자를 보내서 이거 한번 써봤냐 페이스북에 결과가 왜 이렇다라든지. 막 알려지면서 엄청난 접속이 이루어졌고 원활하지 않은 서비스가 있었었는데. 지금 론칭하신다는 그 서비스도 어느 정도의 가용량을 내부에서는 계산을 해놓고 지금 열고 있는 상황이신 거예요?

“앞으로 그렇게 되겠죠. 근데 사실 그 부분에 대한 완벽한 전략까지는 아직 말씀드리기는 조금 어렵습니다.”

-그렇다면은 아까 지금 말씀하신 대로는 기존에 쓰던 A100 같은 것들로는 뭔가 확대하기 어렵다라는 거잖아요?

“그 안에서 저희가 할 수 있는 한을 최선을 다하기 위해서 여러 경량화 기법이라든지 시스템적인 변화들을 주려고 노력을 하고 있고요. 그런 노력들이 사실 계속되고 있는 와중에 “그런데 만약에 이걸 우리가 지속 가능하냐?” 라고 했을 때는 물론 사실 이게 어떻게 변화할지 얼마나 더 폭발적일지 이게 사실 예측이 안 되긴 합니다. 오픈AI도 마찬가지로 챗GPT가 그렇게 잘 될 줄 몰랐으니까요. 그리고 이게 잘 되면 잘 될수록 더 많은 사람들이 쓰고 더 많은 사람들이 쓰면서 더 많은 사례들이 개발되고 더 많은 회사에서 더 많은 서비스를 만들어내고. 사실 이게 폭발적으로 확산되는 그림이기 때문에 저희가 어느 정도 선을 그어봤을 때 “이 이상 잘 되면 진짜 우리 어떻게 대응하지?” 혹은 “그만큼 느려지겠구나” 이건 거죠. 결국에는 GPT4가 지금도 엄청나게 느리듯이 그리고 처음에도 GPT4 유료가 공개됐을 때도 저희가 쓸 수 있는 이그젬플 수가 훨씬 더 많았어요. 근데 점차 줄여서 지금 3시간에 25개인지 지금 제가 지금 정확히 기억은 안 납니다만 줄여왔거든요. 그런 것처럼 서비스 질을 하락시키는 수밖에 없겠다.”

-결국에는 가용성의 문제인 거고요

“그러니까 저는 그렇게 생각하는데요. 모델은 아직도 작습니다. 더 커질 여지가 많이 있고요. 왜냐하면 저희는 이미 GPT4라는 엄청난 모델의 성능을 이미 봤기 때문에. 그 정도 모델 사이즈로도 사실은 할루시네이션도 많고 사실 그걸로 만족 못하는 사람들도 있거든요. 근데 거기서 속도를 더 빠르게 하건 가격을 더 싸게 하건 더 많은 사람들이 쓰게 하건 하면 할수록 사실은 모델은 작아지고 성능은 상대적으로 낮아질 수밖에 없는 거라서요. 저희가 좋은 서비스를 만들고 좋은 시스템을 만들어서 그만큼 많은 가용 인원을 늘리면 또 가용 인원을 늘리 수 있는 만큼 또 모델 크기를 키우려고 할 것이고요. 그게 안 된다면 결국 모델 크기를 줄여서라도 서비스 가용한 범위에 맞춰야겠죠. 그럼 또 그건 또 서비스 질 하락으로 이루어질 거고 그런 복잡한 트레이드오프 관계 안에 있습니다.”

-그러면 어떤 하드웨어를 어떻게 만들어야 지금 말씀하신 라지 랭귀지 모델에 걸 맞는 하드웨어나 시스템을 구성할 수 있을지에 대한 고민은 언제부터 하신 겁니까?

“말씀드렸다시피 2년 됐고요.”

-그럼 지금 방향성은 어느 정도 서 있습니까?

“저희 내부적인 방향성은 그건 벌써 한 1년 넘었겠네요. 1년 전부터는 확실히 서 있었고 이런 방향으로 가야지만 진짜 대응이 가능하겠다 라는 생각들 많이 했었습니다. 여기서 제일 중요한 포인트는 결국 아까 잠깐 말씀드리다가 다른 길로 샜던 것 같은데 AI 회사랑 하드웨어 회사랑 같이 해야 된다. 혹은 한 회사 안에서 다 해야 된다라는 생각이었던 거고요. 현재 어떻게 보면 이렇게 나눠져 있습니다. AI 모델을 만드는 사람들이 있고요. 시스템 인프라를 하는 사람 혹은 MLOps 이런 걸 하는 사람들이 있고. 그리고 이걸 받아서 사용하는 시스템 소프트웨어가 있고 GPU가 있는 상황인 거죠. 그러면 엔비디아에서 만든 패스터 트랜스포머라든지 이런 프레임워크가 실행이 되는 와중이고요. 저희 회사는 굉장히 오래전부터 사실 패스터 트랜스포머도 계속 잘 들여다보고 있었고 거의 초창기부터 엔비디아랑 같이 했다고 봐도 될 정도로 같이 하고 있었고. 그러다 보니 그 부분까지는 최적화를 함께 이루어냈다라고 한다면요 혹은 저희가 엔비디아 시스템에 대한 공부를 많이 해서 그 최적화를 많이 이뤘다고 하면요. 여기서 한 발 더 나아가서 하드웨어까지도 AI 모델 관점에서 바라볼 수 있도록 혹은 하드웨어 관점에서 AI 모델을 바라볼 수 있도록 그러니까 문제를 같이 놓고 풀고 싶은 거죠. 이건 AI는 AI 문제를 풀고 시스템 소프트웨어는 시스템 소프트웨어 문제를 풀고 하드웨어는 하드웨어 문제를 푸는 것이 아니고. 이걸 다 같이 놓고 새로운 최적화 포인트를 찾아내고 싶은 겁니다. 과거에는 우리가 어떤 컴퓨팅 시스템이 어떤 정답을 향해서 수십 년간 달려왔다고 한다면요. 지금은 매트릭스 멀티플리케이션 중심에 그리고 그것도 굉장히 큰 매트릭스 멀티플리케이션이 연달아서 계속해서 일어나야 되는 굉장히 특수한 워크로드가 세상을 잡아먹고 있는 중이라는 거죠. 과거에는 구글이나 저희 네이버도 마찬가지고 수없이 많은 처리를 유저 리퀘스트를 처리할 수 있었다면 그것보다 몇백 배가 넘는 워크로드가 연달아서 계속 들어올 때에 그것을 대응하기 위해서 기존의 시스템만으로는 안 된다. 풀 스택으로 심지어 AI 서비스까지 그래서 저희는 서비스 기획자부터 시작해서 하드웨어 하는 사람들까지가 모두 한 가지 문제를 어떻게 풀까를 고민하는 그런 어떤 저희는 홀리스틱 어프로치라고도 하기도 하는데요. 그런 식으로 문제를 풀어야 된다라고 생각했던 것이고요. 이게 가장 큰 대전제였습니다. 근데 이게 사실 쉽지는 않습니다. 왜냐하면 그만큼 문제의 디멘젼이 복잡해진다는 소리가 되는 거고요. 트레이드오프 관계가 복잡해진다는 소리가 되기 때문에 사실 세상 모든 AI 모델을 이런 식으로 풀 수는 없습니다. 왜냐하면 모델의 종류도 많아지고 이 모델 저 모델이 있는 걸 전부 다 그걸 위해서 하드웨어를 따로 만들고 또 디자인하고 최적화하고 경량화하기에는 너무 많은 품이 드는 게 사실이거든요. 그래서 사실 제가 오랫동안 했던 경량화라는 주제가 그래서 어려움이 있었습니다. 왜냐하면 최적화를 해야 되는데 최적화 포인트가 없는 거죠. 그런데 지금 라지 랭귀지 모델이라는 이 거대한 시장은 그냥 돈 관점에서 시장이라고 바라본다라고 할 때요 이제까지 한 번도 본 적이 없었던 처음으로 넷플릭스보다도 더 비싼 돈을 받을 수 있는 월 구독료를 받을 수 있는 서비스가 등장한 거잖아요. 사실 엄청난 시장이 세상에 딱 등장을 한 것이고. “이 시장이라면 우리가 이걸 타깃으로 하드웨어까지 다 만들어도 되겠다”라는 생각을 한 것이죠. 사실 거기서 제일 큰 변화가 있습니다.”

-어떤 변화입니까?

“범용적으로 만들기 위해서 많은 걸 포기했어야 됐다면 이제는 진짜 우리가 이 랭귀지 모델 하나만 만들어도 이 랭귀지 모델에 대응되는 거 하나만 만들어도 충분히 큰 시장이 공략이 되겠다.”

-돈이 되겠다.

“그렇죠. 그게 제일 큰 것이고. 지금 제가 말씀드린 게 두 가지가 같이 있는 것 같아요. 그 시장이 크다. 그것과 그 시장을 우리가 가져가기 위한 서비스하기 위한 하드웨어가 필요하다.”

-그래서 기존 대비 효율성을 높이는 방향성에 대해서는 구체적으로 어떤 게 있나요?

“언론 보도를 통해 나갔듯이 저희는 일단 모델 사이즈를 줄일 계획이고요. 모델 사이즈를 줄이는 것을 위한 경량화 기술들 적용을 할 계획이고. 일단 트랜스포머라는 건 GPT의 기본이 되는 트랜스포머 모델이라는 것은요. 메모리 바운드입니다. 무엇이냐 하면 저희가 D램에서 온칩으로 웨잇이라는 파라미터들을 모델을 올릴 때에 거기서 다 보틀넥(병목 현상)이 걸리고 있는 상황이고요. 그 웨잇을 불러 올린 다음에 그거를 처리를 하는 시간이 더 짧다 보니까 결국 여기서 올라가는 데 시간이 걸리는 거고요. 그러다 보니 HBM을 쓸 수밖에 없고 HBM의 속도가 빨라지는 만큼 성능이 빨라지는 그래서 V100, A100, H100로 갈수록 900GB/s에서 2TB/s로 그리고 또 거기서 3.3배인가요? 그렇게 올라가는 그림이 결국 다 그걸 위한 것이고.”

-메모리와 연산을 하는 뭔가 연산 프로세서 간의 속도가 빨라져야 된다.

“지금 A100이 300테라플롭스(TFlops/s)가 넘는데. 거기다가 충분히 밥을 먹여줘야지 연산기가 그 밥을 먹고 결과를 뱉을 텐데. 그 연산기가 엄청나게 놀고 있는 상황이 됩니다.”

-메모리가 안 따라줘서.

“그렇다 보니까 그걸 빠르게 하기 위해서 HBM을 더 빠르게 할 것이냐. HBM을 더 많이 탑재할 것이냐 여기 다 한계가 있거든요. 그래서 오히려 저희는 반대로 그럼 모델 사이즈를 줄이자.”

-모델 사이즈를 줄이자.

“그리고 모델 사이즈를 줄이는 것에 대해서는 사실 저희 팀이 적어도 세계적으로도 정말 많이 해본 팀이라고 자부하고 있고요.”

-사례가 있습니까?

“사례라고 한다면 회사 내부 얘기들이라서. 논문으로 얘기하자면 탑티어 AI 컨퍼런스에 계속해서 논문을 내고 있는 팀이고요. 그러다 보니까 또 정말 많은 모델들을 압축을 해봤고. 방금 말씀드린 것처럼 이 라지 랭귀지 모델 2년 전부터 준비를 해왔다 보니 사실 저희 논문을 아시는 분들은 저희 논문을 읽는 것만으로도 사실 저희가 어느 방향으로 가고자 하는지 대충 눈치를 챌 수 있습니다. 논문을 통해서 저희 생각들은 파편화되긴 했지만 드러내고 있었고요. 그러다 보니 그런 작은 모델을 통해서, 작은 모델을 사용하게 되면 그만큼 적은 데이터 밴드위스로도 D램 밴드위스로도 데이터를 빨리 먹여줄 수가 있기 때문에 그 방향으로 가고자 하고 있는 거고요. 그러면 그때 이미 만들어진 모델의 크기를 작게 하면 그만큼 사실 모델 성능에 문제가 생길 수 있잖아요. 그리고 사실은 모델을 작게 만든다고 해서 그 작은 모델이 하드웨어적으로 빠르게 동작한다는 보장은 또 없습니다. 그 부분에 대한 솔루션들을 내부적으로 많이 가지고 있는 거고요. 그게 저희의 엣지라고 볼 수 있겠습니다.”

-모델을 작게 만든다. 아까 잠깐 말씀해 주셨는데 모델을 작게 만들어도 우리가 서비스 받는 데는 큰 문제는 없는 겁니까?

“문제가 없도록 작게 만들어야겠죠. 모델 성능이 거의 떨어지지 않거나 혹은 약간 떨어지더라도 충분히 그럴 가치가 있는 방향으로 가야 될 것 같고요. 만약에 압축을 했는데 모델이 말도 안 되게 성능이 안 나온다라고 하면 그건 서비스 자체가 안 되는 거니까 대전제가 무너지는 거죠.”

-그러면 모델을 줄이면 기존에 있는 HBM을 그냥 쓰면 되는 거 아닙니까?

“그것도 역시 더 좋아지는 방향일 겁니다.”

-그래요?

“그렇죠. 그러니까 방금 말씀드린 대로 이펙티브하게 모델을 줄여서 이득을 볼 수 있으면 당연히 HBM을 사용한 경우에는 더 좋겠죠. 그러니까 그런 복잡한 관계들 속에서 지금 하는 내용들을 준비하고 있는 거고요. 근데 말씀드렸다시피 HBM은 다시 스케일업이 안 된다. 문제로 이어지기 때문에. 모르겠습니다. 향후에 HBM 관련된 기술들이 더 많이 발전을 해서 그 부분에 어떤 브레이크스루가 생기면 당연히 그런 접근들을 할 수 있을 것 같고요.”

-HBM이 스케일업이 안 된다는 것은 어떤 의미인 거죠?

“수율의 문제와 파워의 문제로.”

-공급에 대한 것들인 거군요.

“어쨌든 파워가 크면 클수록 저희는 데이터센터 운영하는 입장에서 힘들어지는 건 사실이니까요.”

-그러면 기존에 있던 메모리를 어느 정도 개량해서 활용할 생각이십니까?

“그런 방안도 고민하고 있는 거고요. 그 부분은 그런 다양한 고민들. 그러다 보니 메모리 사업부하고 일하는 것도 있습니다.”

-아니 제가 AI 반도체 설계라고해서 저는 그냥 딥테크 포럼의 발표 제목만 보면 NPU를 직접 만드는 것인가? GPU를 그냥 계량해서 사용하겠다는 것인가?인데. 하여튼 메모리 쪽에 방점이 찍혀 있는 거군요?

“네. 방금 말씀드린 것처럼 물론 모든 것을 포괄하긴 하죠. 반도체 솔루션이라는 범위는 포괄하긴 하지만 지금 제가 말씀드린 게 다 결국 메모리 문제잖아요. 그리고 경량화 기술. 경량화 기술에 대한 부분과 메모리에 대한 부분 이게 거의 양날개라고 생각하시면 될 것 같습니다.”

-8월에 서비스를 론칭하는 것은 지금 일반 대중에 이렇게 쓸 수 있게 론칭을 하시나요?

“그걸 목표로 알고 있습니다.”

-근데 예를 들어서 최근에 어떤 기업들에서는 이렇게 GPT처럼 뭘 쓰면 답이 오고 하는 것들이 업무에 활용할 경우에 외부로 정보가 나간다? 서비스하는 쪽으로 중앙에 모이든지 그거에 대한 우려들이 있는데. B2B라든지 이런 서비스에 대한 계획도 있으십니까?

“제가 그 부서들에 속해 있지 않아서 조금 제약은 있겠습니다만, 그 부분에 대한 솔루션을 가지고 있고요. 여러 회사와 논의 중에 있습니다. 그리고 솔루션을 결국 저희가 ‘뉴로클라우드(Neurocloud)’라고 부르는 서비스에 저희 하이퍼클로바X를 탑재해서 물리적으로 완전 관리형 클라우드를 디플로이(Deploy) 하는 형태를 생각을 하고 있고요. 그리고 저희가 파인튜닝에 대한 기술도 많이 가지고 있습니다. 그래서 당연히 그 고객사의 데이터를, 이게 굉장히 어려운 이슈인 게 저희의 모델도 지켜야 되고요. 고객사 입장에서도 고객의 데이터를 지켜야 되고. 이 두 가지 상충되는 요구사항을 만족시키기 위한 솔루션을 준비 중에 있고요.”

-모델을 지킨다는 건 어떤 의미죠?

“저희가 만든 모델 파라미터들이 외부로 유출돼서는 안 되기 때문에. 근데 또 그렇다고 고객의 데이터를 저희가 가져와서 파인튜닝(Fine-tuning) 할 수는 없지 않습니까? 그러니까 그 부분에서 상충되는 문제를 해결하기 위한 솔루션을 가지고 있고요. 준비 중에 있습니다. 그리고 저희가 그런 고객들의 데이터를 가지고 모델을 업데이트 하는 것도 사실 그것도 마찬가지로 굉장히 옛날부터 준비를 많이 하고 있었고요. 그렇기 때문에 커스텀 하게 모델을 만들고 배포하고 하는 문제에 있어서 상당한 기술력을 가지고 있다고 자부하고 있습니다.”

-커스텀하게 만든 하드웨어나 시스템도 그러면 그쪽으로 다같이 공급을 할 수 있겠네요?

“그런 형태가 돼야겠죠.”

-그것도 다 염두에 두시고 이렇게 지금 다 하고 계신 겁니까?

“그렇습니다.”

-저쪽으로 되면 매출도 많이 나올 수 있겠네요? B2B 매출로.

“저희는 ‘하이퍼클로바X’라는 것 자체가 엄청나게 큰 기회라고 생각을 하고 있습니다. 그리고 그거는 2년 전에도 마찬가지였고요. 아직 사람들이 많이 라지 랭귀지 모델에 집중하고 있지 않을 때에도. 사실 AI를 서비스하다 보면요 이게 생각보다 품이 많이 들어갑니다. 생각보다 이 모델도 만들고 저 모델도 만들고 또 이런 거 필터링하고 그러다 보면 말이 잘못 나오면 안 되니까 또 필터링하고 몇 단계 더 만들고 하다 보면 그 태스크에 대해서 너무 많은 품이 들어가는데요. 그런 것들을 또 여러 개 하다 보면 사실은 “우리가 이러려고 AI 했나?”라는 생각이 들기 마련이거든요. 근데 라지 랭귀지 모델이 등장하고 이 모델의 어떤 범용성. 오히려 제가 아까 하드웨어는 저희가 범용성보다는 최적화시킨다라고 말씀드렸죠. 모델도 최적화시킬 거고 서베이 시스템도 최적화 시킬 건데. 모델은 오히려 범용성을 크게 갖고 있는 겁니다. 그러니까 이 라지 랭귀지 모델 하나를 우리가 잘 하면, 요즘은 ‘파운데이션 모델’이라고도 불리지 않습니까? 이거 하나 잘하면 이거 하나로 우리가 많은 태스크를 동시에 해결할 수 있고 그리고 이 모델의 놀라운 성능을 봤으니까 그리고 물론 그때 본 성능보다 지금의 성능은 훨씬 더 높습니다만, 이 모델의 성능을 봤으니 이 모델로 서비스 한다면 이 모델로 이 많은 태스크들을 대응할 수 있다면 우리가 상당한 이득을 얻을 수 있겠다라는 생각을 오픈AI도 당연히 옛날부터 했을 것 같고요. 저희도 2년도 더 전에 그러니까 저희가 처음으로 하이퍼클로바를 공개하는 행사를 했던 것이 21년 5월인가 그렇습니다. 그러면 그로부터 당연히 몇 달 전부터 그 많은 인프라를 사고 구축하고 저희가 그것을 학습시키기 위해서 노력을 했던 것이죠. 그러니까 지금 와서 “그럴만한 이득이 나올 걸로 예상하냐?”라고 물으신다면 제가 대답하는 게 아니어도 너무 많은 사람들이 동의를 하고 있는 부분인 것 같고요. 그래서 해외의 유명한 빅테크 회사들 전부 동의하는 내용인 것 같고. 그리고 저희도 또한 그걸 2년 전 혹은 그 이전부터 충분히 동의하고 준비하고 있었다 라고 강조 드리는 부분입니다.”

-좀 더 자세한 AI 반도체 설계 라지 랭귀지 모델 분석에서부터 시작하는 AI 반도체 설계에 대해서 권세중 네이버클라우드 리더님의 얘기를 듣고 싶으시면 저희 세미나 와주시면 좋겠습니다. 리더님 고맙습니다.

“감사합니다.”

정리_안영희 PD anyounghee@thelec.kr

Leave a Reply