Skip to main content

<인터뷰 원문>

진행 : 디일렉 한주엽 대표

출연 : 인텔코리아 나승주 상무

 

-상무님 ‘사파이어 래피즈’ 드디어 나왔어요.

“맞습니다.”

-원래 언제 나오기로 했던 겁니까?

“예정보다 조금 늦었죠. 가장 주된 이유 중 하나는 이 제품이 엔터프라이즈용 프로세서잖아요. 그래서 가장 중요하게 생각하는 게 퀄리티입니다. 왜냐하면 출시한 이후에 품질 문제가 되면 그게 더 커다란 이슈 문제가 될 수도 있습니다. 그래서 저희들은 퀄리티·품질을 가장 우선순위로 생각합니다. 어쩔 수 없이 예정보다 조금 늦게 출시를 했습니다.”

-2월에 공식 론칭한 겁니까?

“2023년 1월 11일 했습니다.”

-한국에서는 2월에 행사를 하셨죠?

“저희 인텔하고 대형 클라우드 서비스 프로바이더(CSP)가 가장 먼저 출시했고요. 이어서 OEM들. HPE·레노버·델 이런 하드웨어 벤더들. 저희 파트너들과 같이 행사를 계속해서 하고 있습니다.”

-사파이어 래피즈는 몇 나노 공정이죠? 인텔 기준으로는?

“인텔7 기준입니다. 시장에서는 7나노급에 대응된다고 보시면 됩니다.”

-전작이 뭐였죠? 아이스레이크였나요?

“아이스레이크 3세대 인텔 제온 스케일러블 프로세서입니다. 이번에 사파이어 래피즈는 코드명으로 공식으로는 4세대 인텔 제온 스케일러블 프로세스라고 합니다.”

-3세대와 4세대의 차이점에 대해서 여러 가지 여쭤 보려고 합니다. 가장 크게 바뀐 게 뭡니까?

“여러 가지가 있겠지만, 프로세서 중심으로 우선 말씀 드리면. 코어 자체가 바뀌었고요. 프로세서를 구성하는 코어 자체도 바뀌었습니다. 이 프로세서하고 연관되는 메모리·I/O 쪽도 다 같이 개선됐습니다. 그래서 전체적인 서버 플랫폼의 성능 향상을 골고루 가져올 수 있게 바뀌었죠.”

-코어 숫자는 많이 늘어났어요? 예전에 3세대는 40개까지?

“48개에서 최대 60개까지 증가가 됐습니다. 코어 수 증가도 중요한 부분인데. 코어 자체가 얼마만큼 개선이 됐느냐도 상당히 중요한 부분이거든요. 물론 코어 숫자도 계속해서 증가하지만, 코어 자체도 성능 향상을 시킵니다. 코어 자체, 동일한 클록에 동일한 수의 코어로 봤을 때. 대략 15% 정도 코어의 성능이 개선됐다고 보고 있습니다.”

-15% 정도 성능이 개선되었다.

“예를 들면 동일한 클록에 15% 더 많은 일 처리를 할 수 있는 배경에는 코어를 구성하는 마이크로 아키텍처의 개선이 있습니다. 매 세대, 새로운 제품 발표할 때마다 코어 자체의 성능도 따라서 개선됩니다. 이번에는 커다란 성능 향상을 가져왔죠. 15%면 상당히 커다란 성능 향상입니다. 그러면 어떻게 15%의 성능 향상을 가져올 수 있는가를 말씀드리면 커다랗게 블록 다이어그램을 보게 된다면 프로세서라는 게 명령어를 가지고 와서 해석하고 그걸 처리하잖아요. 명령어를 가져오는 게 메모리나 캐시로부터 가져오게 되는 부분이고요. 그리고 가져온 명령어가 어떤 명령어인지 해석하는 과정이 필요합니다. 이것이 ‘더하기’다 ‘빼기’다. 아니면 메모리 관련된 것이다. 아니면 I/O 관련된 것이다. 이렇게 해석하는 그런 과정이 있고요. 인스트럭션, 명령어를 해석하는 것이 디코더(Decoder)라는 부분에서 프론트엔드 쪽이라고 하는데, 그런 디코더라는 부분이 있습니다. 이 디코더가 4개에서 6개로 더 늘어났어요.”

-제가 얘기 듣기로는 대부분 다 4개였지 않습니까?

“그렇죠. 대부분 4개였고. 이번에 4개에서 6개로 됐습니다. 그 얘기는 바로 뭐냐면 물리적으로 생각해서 디코더 할 수 있는, 명령어를 해석할 수 있는 역량이 50% 이상 상향이 된 거죠.”

-2개가 더 늘어났으니까.

“그렇죠. 4개에서 6개로. 그러면 명령어가 해석되면 이것은 사실은 잘게 쪼갭니다. 명령어를 더 잘게 쪼개고요. 이것을 하는 이유가 뭐냐면 명령어 자체도 병렬화해서 동시에 처리하기 위해서입니다. 그러다 보니까 더 잘게 쪼개서 그거를 동시에 실행 유닛(Eu: Execution Unit)으로 쭉 보내는 게 있는데. 그럼 실행하는 그 유닛 자체도 많이 증가가 됐죠. 그래서 포트도 예전 8개에서 10개로 증가됐고요. 우리가 산술연산이라고 하는 AND, OR 또는 더하기, 빼기 이렇게 할 수 있는 부분도 4개에서 5개로 증가됐고요. 메모리 로드 하는 부분도 하나 더 추가됐습니다. 이것이 중간에 실행 유닛 전까지 해석하고 실행하기 전 중간 단계에서 이루어지는 일입니다. 이게 더하기다 빼기다. 아니면 정수연산(Integer)이다, 부동소수점(floating point)연산이다. 이렇게 해석된 바대로 실행 유닛으로 실행합니다. 이 실행 유닛에서도 여러 가지 개선이 있습니다. 제가 나중에 소개 드리겠지만 새롭게 생성된AMX(Advanced Matrix Extensions)라고 하는 실행 유닛이 있고. 이것은 벡터 연산을 할 수 있는, 요즘 많이 하는 인공지능의 성능 향상을 시킬 수 있는 그런 실행 유닛입니다. 새롭게 AMX가 추가가 됐고요. 조금 전에 말씀드린 산술 논리 장치(ALU)도 4개에서 5개 됐고. 그리고 벡터에서 애더(Adder)도 있습니다. 벡터라는 것은 한 번에 한 번 처리하는 것이 아니고, 한 번에 여러 데이터를 처리할 수 있는 것을 말합니다. 이쪽에 할 수 있는 것도 더 빠르게, 예를 들면 5 클록에 한 번 처리했던 것을 4 클록에도 처리할 수 있게. 이렇게 전반적으로 캐시도 더 스마트해 지고 디코더도 4개에서 6개 증가됐고. 그 중간 단계에서도 증가가 됐고 실행 유닛도 더 개선됐고. 전체로 봤을 때 일반적으로 한 15% 이상 정도 향상됐습니다.”

-코어 개수가 최대 60개짜리가 있다는 건데. 사실 경쟁사 얘기하기는 좀 그렇지만 거기는 96개인가요? 96개까지 코어가 들어간다고 하는데. 코어가 많은 게 좋은 겁니까?

“동일한 코어라고 하면 전 세대 대비 많으면 많을수록 좋을 수도 있지만, 실제 코어 수가 다는 아니거든요. 같은 코어가 아니기 때문입니다. 저희 인텔에 그동안 오랫동안 해서 발전해 왔던 마이크로 아키텍처가 있습니다. 코어도 다 같은 코어가 아니죠. 동일한 아키텍처로 한다면 물론 코어 수가 더 많으면 좋겠지만. 실제 여기에는 60개고. 더 많게 한다고 하더라도 실제 코어 자체가 다르기 때문에 전체 성능 측면에서는 다른 얘기가 됩니다.”

-경쟁사하고 비교했을 때 소켓에 끼울 수 있는 개수도 좀 차이가 있는 것 같은데요? 경쟁이라고 얘기해도 됩니까? 점유율 차이는 아직도 많이 나지 않습니까?

“이번에 사파이어 래피즈 4세대 인텔 제온 스케일러블 프로세서를 발표하면서, 다양한 소켓 수도 지원했습니다. 보통 서버 시장에서 많은 비중을 차지하는 것이 2소켓. CPU가 2개로 구성된 것입니다. 사파이어 래피즈에서는 싱글 소켓 기반의 서버도 지원을 할 수가 있고요. 4소켓에서 4소켓 이상도 지원을 하게 됩니다.”

-최대 몇 개까지 꽂을 수 있어요?

“4소켓 되고요. 그리고 별도 부가적인 회로 없이도 8개 소켓까지도 지원합니다. 그리고 그 이상 하는 데 있어서는 하드웨어 벤더가 설계하기 나름입니다. 저희는 그 이상 지원합니다.”

-제가 칩 다이(Die)를 사진을 보니까, 4개를 이어 붙였던데…

“60개까지 코어를 지원하잖아요. 60개는 실리콘 측면에서 보면 상당히 커다란 사이즈의 크기가 됩니다. 이것을 하는 데 있어서 물리적으로 생산할 수 있는 크기를 사실 벗어난다고 봐야 하고요. 현재 기술에서. 또 다른 여러 가지 생산성 측면에서 봤을 때 실제 하나로 하는 것보다는 4개로 분리해 그것을 연결해서 전체 하나의 제품을 만드는 그런 제품입니다. XCC(Extreme Core Count)라고 합니다. 익스트림 코어 카운트라고 합니다. 코어 수가 많으니까 최대 60개까지 되고요. 이런 경우는 코어 수가 많다 보니까 실제로 실리콘이나 다이 사이즈가 커지니까 물리적으로 4개로 하나를 붙이게 된 거고요.”

-한 개 면적도 되게 크던데 4개를 다 붙이면 면적이 엄청나겠네요? 성능도 엄청나겠지만.

“서버용이기 때문에 사실 상당히 커다란 편입니다. 차이점 중 하나가 그전에는 모놀리식(Monolithic)이라고 해서 하나의 다이 안에 모든 것을 다 만들었습니다. XCC에서는 4개를 하나의 제품으로 만들고요. 그렇지만 모든 프로세스가 다 이렇게 되는 건 아닙니다. 실제 코어 수가 32개 미만인 것은 역시 마찬가지로 모놀리식(Monolithic)으로 합니다. 다이 하나에 32개까지의 코어를 다 구성할 수가 있어요. 이렇게 구성이 돼 있습니다. 그렇지만 XCC 같은 경우에는 4개로 해서 이어 붙이게 된다면 실제 레이턴시(latency)가 다르거나.”

-그렇죠. 그런 우려들이 있죠.

“아니면 실제 프로그래밍 하는 데 있어서 다르게 고려해야 되지 않는가, 그렇게 우려를 하시거나 그쪽에 대해서 궁금해하십니다. 물리적으로는 4개지만 EMIB(Embedded Multi-die Interconnect Bridge)라고 하는 칩과 칩을 연결하는 패키징 기술이 있습니다. 그것을 통해서 실제 레이턴시를 엄청나게 줄였습니다. EMIB를 통해서 다 연결돼서 논리적으로는 하나의 프로세서인 것처럼 작동합니다. 물리적으로는 4개지만 그것을 EMIB를 통해서 실제 논리적으로는 하나의 프로세서 모놀리식인 것처럼 그렇게 동작을 합니다.”

-‘4세대 인텔 제온’ 그냥 편하게 그렇게 부르면 됩니까? 4세대 제온?

“공식 명칭은 ‘4세대 인텔 제온 스케일러블 프로세서(코드명 사파이어 래피즈)’인데. 4세대 제온 프로세서라고 하셔도 됩니다.”

-4세대 제온 프로세서는 메모리 인터페이스도 새로운 게 많이 들어있죠?

“그렇죠. 이번에 CPU 코어도 개선됐다고 말씀드렸는데. CPU 자체 외에도 플랫폼 구성하는 측면에서 보면 메모리가 새로운 기술이 됐죠. 그전에 DDR4에서 지금 처음으로 DDR5를 서버에서 지원하게 됩니다.”

-HBM 이런 것도 지원하는 것 같던데요?

“아까 제가 말씀드린 XCC가 있고요. 그리고 모놀리식(Monolithic)인 게 MCC라고 합니다. 또 다른 하나가 HBM을 지원하는 다이 패키지가 있습니다. 그래서 3가지의 구성이 돼 있고요. HBM은 잘 아시겠지만 HBM(High Bandwidth Memory)을 지원해서 DDR5보다 더 빠른 메모리 밴드위스(Bandwidth)를 지원하게 되죠. 만약 내 워크로드의 애플리케이션이 메모리에 상당히 민감하다. 메모리 성능에 따라서 내 워크로드의 성능이 직결된다고 했을 때는 HBM 솔루션이 상당히 좋은 솔루션이 됩니다.”

-그렇군요. 그래도 저같이 잘 모르는 입장에서 볼 때는 이게 코어 숫자가 너무 작으니까, 실제로 우리가 애플리케이션을 서버에서 올려서 작업을 할 때는 성능이 떨어지는 거 아니야? 이런 식의 의문을 가질 수 있을 텐데. 이번에 새로 나온 프로세서 안에는 여러 가지 가속기도 많이 들어가 있다면서요?

“그래서 아까 마이크로 아키텍처 개선을 말씀을 드렸습니다. 15%. 이것은 동일한 클록이라고 봤을 때 일반적인 범용이나 어떤 애플리케이션이든 그 정도의 성능 향상을 가져올 거라고 기대할 수가 있습니다. 그렇지만 현재 서버 워크로드에서는 제온 스케일러블 프로세서가 너무나 다방면에 사용되기 때문에 항상 고민한 게 ‘이 범용 프로세서를 가지고 다양한 워크로드에 어떻게 맞출 수 있을 것인가’ 많은 고민을 했죠. 기존 CPU로는 한계가 있다고 생각했고. 그럼 과연 그것을 맞출 수 있는 것이 무엇인가라고 봤을 때 각각의 세그먼트 또는 각각의 워크로드에 맞는 가속기를 제공하자고 하는 것입니다. 잘 아시겠지만, 가속기라는 것이 모든 다방면의 워크로드에서 제 성능을 내놓은 건 아니거든요. 어떤 특정한 영역에서만 좋은 것이 바로 가속기입니다. 가속기 하나, 한 종류의 가속기를 지원한다고 해서 모든 게 다 되지는 않고요. 그래서 저희들이 무려 12개의 가속기를 CPU 안에 집어넣었습니다.”

-12개를요?

“엄청나게 많죠.”

-어떤 가속기들이 있습니까?

“아까 제일 처음에 AI 쪽 잠깐 말씀을 드렸습니다. AI를 위한 가속기가 있고요. AMX(Advanced Matrix Extensions)라고 어드밴스드 매트릭스 익스텐션입니다. 인공지능(AI)을 하게 된다면 기존 대비 엄청나게 많은 데이터를 우선적으로 더 처리를 해야 되거든요. 그렇기 때문에 기존에 있던 스칼라(Scalar) 또는 기존에 AVX처럼 벡터(Vector), 그거보다도 더 많은 처리를 해야 되는 필요성이 있고요. 그래서 AMX라는 것이 지원됩니다. AMX는 뭐냐면 매트릭스 단위로 처리합니다. 기존에는 실제 데이터 하나 처리했거나 또는 벡터 한 번에 32개의 데이터를 한 번에 처리했습니다. 그런데 이것도 부족하죠. 그래서 어떻게 하냐면 AVX를 예를 들면 32개의 데이터가 연결된 것을 매트릭스로 됩니다. 그래서 16개가 더 있죠. 하나의 벡터가 16개가 더 포함된 거고요. 그래서 기존 대비 엔진의 하나로 보면 16배의 성능 향상이 되게 되는 거죠. 그래서 이것을 하게 된다면 요즘 데이터 타입에서 Integer8이라든지 아니면 bfloat16이라든지 이런 데이터 타입을 빠르게 처리할 수 있습니다. 이론적으로 8배 정도 성능 향상이 되고요. AMX는 CPU 코어에 다 지원이 됩니다. 코어 자체가 있기 때문에, 나머지는 CPU 외에 코어 옆에 붙어 있게, 코어처럼 별도의 블록으로 들어가 있죠. 예를 들면 QAT(Quick Assist Technology)가 있습니다. 암호화를 하거나 또는 압축을 하거나 하는 데 있어서 실제 가속해 주는 것이죠. 그래서 암호화·압축 이것은 요즘 가장 많이 쓰는 게 실제 모든 것이 서버 클라이언트 환경에서는 통신을 할 때 TLS 기반으로 해서 다 암호화를 하고 나서 서로 통신을 하는, 모든 과정이 다 암호화 과정이 있잖아요. 그럴 때 QAT를 통해서 실제 많은 성능 향상을 가져올 수가 있죠.”

-12개니까 하나씩 차근차근 짤막짤막하게 얘기해 주시죠. DSA라는 것도 있던데.

“DSA(Data Streaming Accelerator)는 뭐냐면 인텔 데이터 스트리밍 가속기라고 합니다. 데이터 스트리밍을 위한 가속기가 되는 거죠. 데이터 스트리밍이라는 것이 데이터가 계속해서 흘러가는 거잖아요. 하나의 데이터가 아니고 일련의 데이터가 계속해서 이동하거나 복사하거나 계속 연속된 데이터를 어느 한 곳에서 다른 쪽으로 이동하거나 아니면 CPU 메모리에서 스토리지로 이동하거나 이런 경우에 가속화할 수 있는 기술입니다. 예를 들면 데이터를 하나, 한 곳에서 한쪽으로 옮길 때는 예전에는 다 CPU가 관여를 했습니다. CPU가 어떤 데이터를 어느 위치에서 어디로 옮겨라 아니면 복사해라. CPU가 다 관여 했는데. 데이터 스트리밍처럼 엄청나게 많은 데이터를 일일이 하면 CPU가 아주 귀중한 자원을 데이터 옮기는 데에서만 쏟을 수는 없잖아요. 그래서 이런 것은 가속기한테 맡기는 거죠. “DSA(데이터 스트리밍 가속기) 네가 어디부터 어디까지에 해당하는 데이터, 얼마만큼의 데이터를 옮겨주거나 복사해줘”라고 CPU는 DSA한테 그런 명령만 해주고 DSA는 그때 그 모든 명령을 수행을 하죠. 그러면 CPU는 그동안에 다른 일을 할 수가 있게 되는 거죠. 그게 바로 가속기의 장점 중에 하나입니다. 그렇게 된다면 성능도 더 높일 수가 있게 되고요. 그러면 CPU가 안 해도 되잖아요. 안 해도 되고 그리고 또한 레이턴시도 확 줄일 수가 있죠. 그게 바로 DSA입니다.”

-지금 그거 말고도 방금 말씀하신 거 AMX, QAT, DSA 말고도 DLB, IAA, AVX, SST, DDIO 많은데. 그중에 1~2개 뽑아서 설명해 주실 만한 게 있습니까?

“다이나믹 로드 밸런서(DLB)라고 있습니다. DLB(Dynamic Load Balancer)가 있고요. 이것은 말 그대로 로드 밸런서가 됩니다. 워크로드를 균형 있게 분배를 해주는 그런 기능을 합니다. 그동안에는 이게 네트워크 부분에서 아주 중요한 기술이었습니다. 지금 코어가 많게 되고. 그러니까 어느 한쪽에 치우치게 되면 그것이 다 제 시간 안에 처리 못 할 수도 있잖아요. 근데 골고루 퍼지게 된다면 실제 우리가 원하는 시간 안에 모든 것을 처리할 수가 있는데. 현재는 모든 것이 클라우드 환경으로 많이 전환이 되거든요. 클라우드 환경이라고 한다면, 실제 클라우드 환경 자체에 컴퓨팅도 있지만, 네트워크 관련된 부분도 다 있게 됩니다. 특히나 요즘 쿠버네티스 마이크로 서비스 환경 그런 쪽에 대해서는 모든 것이 다 외부에서의 패킷(packet)이나 요구가 오게 된다면 쿠버네티스 환경에서 이것을 다 밸런스 있게 분배를 해줘야 되거든요. 지금 그런 역할을 하는 것을 다 소프트웨어로 처리합니다. 근데 이런 DLB를 쓰게 된다고 한다면.”

-하드웨어 가속기를 쓰게 된다면.

“그렇게 된다면 여기서의 엄청난 성능 향상을 가져올 수가 있게 되는데. 예를 들면 소프트웨어로 처리하게 된다면 외부에서 받아서 로드 밸런스도 해주고, 게이트웨이 역할도 해주고 Istio Ingress gateway가 현재 소프트웨어 환경이 되는데. 이런 환경에서 무려 96%나 레이턴시를 낮출 수가 있게 됩니다. 동일한 것을 처리한다고 해도 96% 레이턴시를 확 줄이게 된다면 엄청난 성능 향상을 가져올 수가 있게 되죠. 그래서 이것이 말은 하나의 가속기인데 현재 모든 것이 클라우드 환경으로 전환되는 그런 면에서 아주 커다란 어떤 혜택을 볼 수 있는 것 중에 하나가 DLB가 되겠습니다. 또 다른 부분이 인메모리 애널리틱스 가속기(IAA)가 있습니다. 이것이 IAA(In-Memory Analytics Accelerator)라고 얘기를 하는데.”

-DB 관련된 얘기인 거죠?

“그렇죠. 인메모리니까 데이터베이스 관련된 거고. 그리고 데이터베이스는 말 그대로 뭡니까? 데이터를 처리하는 부분이잖아요. 그래서 IAA는 뭐냐면 데이터베이스 관련돼서 어떻게 성능 향상을 시킬 수 있지 않을까 라는 것이고. 데이터를 뭔가 처리하는 데 있어서 성능 향상을 가져올 수 있지 않을까 라고 기대할 수 있는데. 맞습니다. IAA는 인메모리의 성능 향상 또는 거기서 가져온 데이터를 처리하는 성능을 가속시킬 수 있는 기술입니다. 예를 들면 지금 RocksDB가 범용 데이터베이스 엔진으로서는 많이 사용되고 있는데. 이런 쪽에서의 성능 향상을 가져올 수가 있고요. 이것이 하는 역할이 뭐냐면 요즘은 CPU 코어가 있고 DB 엔진이 돌아갑니다. 옆에 메모리가 있는데. 데이터도 실제 RAW 데이터로 바로 집어넣는 것이 아니고. 암호화해서 또는 압축까지도 해서 메모리에 집어넣거나 아니면 암호화하고 압축까지 해서 스토리지에 저장을 합니다. 그래서 여기서도 암호화하고 압축하고 하는 것을 바로 IAA가 할 수가 있게 되고요. 그리고 이 데이터 가져온 것을 예를 들면 스캔하고 필터하고 데이터 처리하는 부분이죠. 이 부분도 가속화할 수 있는 그런 기술이 됩니다. 그래서 제가 QAT에서도 비슷하게 “거기도 암호화할 수 있고 압축하는 거 똑같은 거 아니냐”라고 하는데. QAT 같은 경우는 대량의 데이터를 처리할 때 특화한 것이고요. 이것은 실제 CPU 코어와 메모리 스토리지, 즉 레이턴시가 더 중요한 압축률. 예를 들면 압축률보다는 더 빠르게 압축하거나 암호화할 수 있는 쪽에 조금 더 특화해 차별화했다고 보시면 됩니다. 그래서 IAA가 있고요. 그렇게 봤을 때 RocksDB 같은 경우에서는 2배 이상의 성능 향상을 가져올 수가 있습니다. RocksDB는 하나의 예시고요. 현재 많은 일을 계속해서 하고 있는데. 예를 들면 카산드라(Cassandra)라든지 아니면 몽고DB(MongoDB) 이런 쪽도 계속해서 작업을 하고 있게 됩니다.”

-말하자면 서버 환경에서 서버를 쓰는 고객들이 가장 많이 쓰는 서비스에 대해서 더 빠르게 하는 가속기를 안에 넣어놓으신 거군요? 뭐가 필요한지 그런 것도 조사도 많이 해보셨을 테고. 개발 과정에서 많이 고려를 하셨을 텐데, 다 쓰진 않을 것 같은데요?

“그렇죠. 그래서 제가 가장 서두에 말씀드린 것처럼 이 가속기라는 것이 모든 워크로드에서 다 좋은 것은 아닙니다. 예를 들면 내가 인공지능에 대해서 엄청나게 많이 해요. 그것은 다행히 코어에 다 있습니다. 예를 들면 내 워크로드가 스토리지에 관련된 것입니다. 그래서 요즘은 스토리지도 다 서버 기반으로 해서 스토리지를 하잖아요. 그렇게 된다고 한다면 다른 가속기는 필요 없을 수도 있거든요. 그래서 현재 인공지능(AI), 네트워크, 스토리지, HPC, 데이터 분석 이렇게 맞는 것을 선택할 수 있습니다, CPU 제품에 모든 것이 다 4개/4개/4개 있는 것이 아니고. 다양한 숫자로 해서 이미 만들어놨죠.”

-12개는 CPU안에 들어가 있다?

“물리적으로는 다 돼 있지만 그것을 선택해서 사용할 수가 있습니다.”

-그래요? 선택해서 사용한다.

“예를 들면 아까 말씀드렸지만 나는 스토리지가속기가 필요하고 다른 부분이 필요 없을 수도 있거든요. 만약에 그게 실제로 다 동작 한다고 한다면 나한테는 무의미한 그런 것이 될 수가 있겠죠. 그러면 차라리 없는 게 낫겠죠. 필요한 부분만 내가 선택해서 사용할 수 있도록.”

-필요한 부분만 선택해서 사용할 수 있으면 좀 저렴합니까?

“그렇죠. 내가 필요한 부분만 선택해서 사용한 부분이니까. 실제로 필요하지 않은 부분에 대해서 추가적으로 그거에 대해서는 지불할 이유가 없겠죠.”

-그러면 CPU를 돈 주고 하드웨어를 사서 끼우고 나면 서비스적으로 이 기능을 활성화한다는 얘기예요?

“여러 가지 다양한 선택권을 제공합니다. 가장 먼저 프로세서 제품들이 쭉 있잖아요. 예를 들면 DSA(데이터 스트리밍 가속기)가 필요하다. 내 워크로드가 DSA에 잘 맞아. 아니면 내 워크로드가 현재 쿠버네티스 환경이기 때문에 DLB(다이내믹 로드 밸런서)가 필요하다고 한다면, DLB가 많이 있는 가속기가 있는 제품을 선택하면 되고요.”

-그렇게 먼저 선택을 하면 되고.

“그게 첫 번째 선택이 되고요. 근데 워크로드가 항상 똑같을 수도 있지만.”

-사업 확장하다 보면 새로 끼울 수도 있죠.

“나는 이번에 이런 용도로 샀는데. 1년 후에 비즈니스 환경이 바뀌거나 내 용도가 좀 바뀌어서 DLB(다이내믹 로드 밸런서)가 필요했는데 이번에 IAA(인메모리 애널리틱스 가속기)가 필요해요. 그런 경우에 서버를 다시 새로 구매하려면 많은 시간과 돈과 노력이 필요합니다. 쉽게 IAA를 실제 액티베이션 할 수 있는 그런 기능도 저희들이 제공을 합니다. 온디맨드로 활성화할 수 있는 그런 기능을 제공하고요. 지금은 내 제품에 IAA가 없는데 어떻게 액티베이션 시킬 수 있을까 하면 그런 기능도 제공하고요. 사용자가 바로 할 수 있는 것이 아니고 하드웨어 벤더 쪽에서 그런 서비스를 제공 해줘야 됩니다. 그래서 그렇게 된다면 하드웨어 벤더를 통해서 바로 실제 클라우드에서 내가 쇼핑처럼 이렇게 선택해서 하듯이 그렇게 쉽게 할 수 있는 기능을 제공할 것입니다.”

-CPU에 그런 온디맨드 서비스 접목했던 사례가 없었던 것 같은데요.

“그렇죠. 현재 처음이죠.”
-그렇군요. 요즘 수입차들 사보면 통풍 시트 이런 게 하드웨어는 다 구현돼 있는데, 소프트웨어적으로 막혀 있거든요. 소프트웨어를 쓰려면 돈 내고 써야 되는데 약간 그런 형식 아닙니까?

“어찌 보면 그렇게 될 수 있는데 가장 주된 부분이, 이유가 뭐냐면 다양한 워크로드에 해당하는 가속기를 제공하는데. “이것이 다 필요하지 않다.”, “내가 필요한 부분만 선택할 수 있게 했으면 좋겠다” 라고 하는 그런 요구 사항을 만족시키기 위해서죠. 이번에 QAT(퀵어시스트 테크놀로지)가 더 많이 필요하다고 봤을 때 QAT를 더 하거나 설명을 안 드렸지만 컨피덴셜 컴퓨팅(Confidential Computing) 하는 데 있어서도 상당히 요즘 관심을 많이 갖고 있습니다. 메모리 쪽 부분을 완전히 컨피덴셜하게 애플리케이션만 접근할 수 있는 영역을 만드는 그런 기술도 있거든요. 그것이 SGX(소프트웨어 가드 익스텐션)가 되는데 지금 프로세스가 SGX 쪽에서 메모리되는 것이 한계가 있다. 512기가바이트까지 내가 넓히고 싶다고 한다면 온디맨드로 해서 바로 512기가바이트까지 확장할 수가 있습니다. 여러 가지 필요할 때 선택해서 추가 비용으로 사용할 수 있도록 그런 선택권을 제공하는 것이죠.”

-유연성을 높였다고 볼 수 있는 거군요. 인텔이 서버 시장에서 제가 알 때는 원래는 한 95% 이상 점유율을 차지하고 있었던 것 같은데. 옆집에서 많이 치고 올라왔단 말이죠. 근데 이게 나오면서 대기 수요가 좀 있었다고 저는 생각하거든요. 이 제품을 기다려온 서버 벤더들도 그렇고 서비스 회사들도 투자를, 기존에 인텔 것을 쓰고 있었으니까 아마 그랬던 것 같은데. 어떻습니까? 지금 대기 수요가 다 교체 수요로 오고 있습니까? 어떻게 보십니까?

“감사하게도 많은 고객분들이 지금 사파이어 래피즈에 대해서 많은 관심을 가져주고 계십니다. 예를 들면 기다렸던 분들도 이미 얼리쉽이라는 프로그램도 합니다.”

-빨리 줬다는 얘기예요?

“그렇죠. 공식적으로 2023년 1월 11일 한국 시간으로 발표했는데. 그 이전에 먼저 상용 제품을 받아서 서비스 환경에 사용할 수 있는 그런 프로그램도 제공합니다. 한국에서도 그런 고객분들도 있고요. 일반적으로 그게 아니더라도 실제 OEM을 통해서, 바로 하드웨어 벤더를 통해서 지금 바로 구매하고 많은 수요가 있게 되고요. 그리고 내부에서는 그런 고객하고 PoC(개념 증명) 형식으로 하는 작업을 많이 하고 있습니다. 여러 가지 코어의 성능이 어느 정도 향상됐는지 그리고 가속기가 정말로 내 워크로드 환경에서 어느 정도 도움이 되는지 확인하고 싶다는 고객분들이 많이 있고요. 그리고 AMX 관련해서 인공지능 부분에 대해서, 물론 인공지능을 위한 별도 가속기도 필요한 부분이지만 요즘은 인공지능이 모든 워크로드에 기능이 다 들어가니까 CPU에서 돌리던 워크로드에서 인공지능(AI) 부분이 있는데. 이쪽 개선되는 것을 보고 싶다. 다양한 고객분들의 관심이 많이 있었습니다. 그래서 많은 고객분들과 많은 테스트를 하고 있습니다.”

-상무님 마지막으로 제가 질문 하나 더 드리겠습니다. 사파이어 래피즈는 사실 꽤 시간이 많이 딜레이 돼서 메모리 쪽에서도 한국 업체들은 속앓이가 있었던 걸로. 이게 좀 빨리 나와야지 DDR5도 좀 팔고 이럴 텐데, 그래서 약간 대기 수요가 있었다. 앞으로 계속 늦어지는 거 아닙니까?

“저희들이 기대했던 일정보다 늦어진게 퀄리티를 가장 중요하게 생각을 했죠. 그리고 사실은 이 사파이어 래피즈가 변화된 것이 엄청나게 많습니다. CPU 코어도 바뀌었고 DDR4에서 DDR5도 바뀌었고 I/O 쪽도 PCIe 4.0에서 PCIe 5.0로 바뀌었고. 한 번에 엄청나게 많은 부분이 바뀌며 테스트할 부분이 상당히 많아 딜레이가 됐지만, 현재 엄청나게 잘 되고 있다. 순항하고 있다고 제가 말씀을 드릴 수가 있습니다. 지금 1월 11일 차세대 인텔 4세대 제온 스케일러블 프로세서 발표를 했고. 다음에 나오는 것이 코드명으로 해서 ‘에메랄드 래피즈’가 있습니다. 이것은 현재 플랫폼에서 CPU만 동일하게 바꿨을 때 소켓 호환성을 제공을 하거든요. 그래서 동일한 플랫폼에서 특히나 하드웨어 벤더 측면에서 보면 밸리데이션하는 데 노력이 상당히 적게 들죠. 그래서 ‘에메랄드 래피즈’가 있는데 저희들이 올 연말까지 프로덕션, 출시는 시기적으로 조율을 하겠지만. 내부 생산 준비를 완료하는 것이 올 연말까지 돼 있고요. 이미 엔지니어 샘플 다 나오고 있고 OEM 테스트 진행 중에 있고요. 커다란 문제는 없습니다. 그다음에 나오는 게 ‘그래나이트 래피즈’가 있는데 이것은 플랫폼이 또 달라집니다. ‘그래나이트 래피즈’는 공정 기술도 더 많은 개선이 됩니다. 지금 인텔7 기반해서 인텔4·인텔3이 있는데 이것은 인텔4가 아닌 인텔3 기반으로 합니다. ‘그래나이트 래피즈’도 이미 샘플이 나와있고요. 이미 부팅까지도 다 완료하고 현재 테스트가 진행중입니다. 그래서 이것도 내년 말로 목표로 해서 잘 진행되고 있고요. 앞으로 나오는 ‘에메랄드 래피즈’ 그다음에 ‘그래나이트 래피즈’까지 워킹 샘플이 있어서 현재 테스트가 잘 진행되고 있습니다. 앞으로 약속한 일정에 대해서 나올 것이라고 저는 확신하고 있습니다.”

-상무님 오늘 말씀 고맙습니다.

“감사합니다.”

정리_최홍석 PD nahongsuk@thelec.kr

Leave a Reply