Skip to main content

<인터뷰 원문>

 

진행 : 디일렉 한주엽 대표

출연 : 씨유박스 남운성 대표이사

 

-오늘은 얼마 전에 상장을 했죠. 씨유박스(CUBOX)의 남운성 대표님을 모셨습니다. 대표님 안녕하십니까.

“안녕하십니까.”

-저희가 씨유박스에 대해서 오시기 전에 회사 사업보고서나 이런 거 쭉 살펴봤는데, ‘얼굴인식’ 이쪽에 굉장한 경쟁력을 갖고 있는 회사로 보고서에 많이 나와 있던데. 구체적으로 회사가 어떤 일을 하는지 간략하게 설명을 해주시죠.

“씨유박스는 얼굴인식을 하는 업체로 많이 알려져 있는데요. 기본적으로 얼굴인식을 중심으로 한 제품이나 솔루션을 가지고, 특히 우리나라 정부나 공공 영역에서 많이 활용되는 기술을 제공을 하고 있는 것이 맞고요. 그러나 큰 틀에서 보면 영상 기반의 AI. 카메라를 통한 영상 AI를 잘 하는 업체이고, 그중에서 얼굴인식이 특히 상용화가 잘 돼서 공급을 많이 하고 있는 회사로 설명드릴 수 있겠습니다.”

-코어. 그러니까 핵심 경쟁력은 얼굴이 아니고, 영상을 인식하는 기술이다라는 말씀이실까요?

“범위를 좀 넓히자면 영상인식 부분이고, 그중에서 특히 사람의 얼굴, 사람의 신체(바디) 이런 것들을 영상 처리하는 쪽에 저희가 강점이 있는 거고요. 또 다른 질문에도 소개해 드리겠지만, 영상 영역에 여러 영역을 사업적으로 확대를 하고 있는 중이죠.”

-공항에서 보면 출입국할 때 얼굴인식 하는 출입국 기계라고 해야 됩니까? 자동으로 얼굴 보고 나가고 하는 그 기계가 다 씨유박스에서 공급하신 거죠?

“2013년 이후로 ‘자동 출입국 심사대’ 지문이나 얼굴 여권 인식하는 이런 장비나 솔루션도 저희가 공급하고 있고요. 최근에는 인천공항에서 ‘스마트패스’라고 아마 검색해 보시면 나올 텐데. 체크인 하면 보통 보딩패스 발급을 받잖아요. 그래서 출국장 진입할 때부터 보딩까지 중간중간에 요건이랑 보딩패스 확인을 하고, 실제 얼굴도 보고.”

-보딩패스 가방에 넣었다 뺐다 귀찮죠.

“줄도 길게 늘어서게 되고 번거롭잖아요. 그래서 이것 때문에 시간을 많이 잡아먹고 불편하니까 보딩패스 발권할 때 얼굴을 한 번 등록을 하면 출국장 진입부터 마지막 보딩까지 신원 확인 구간을 얼굴인식으로 다 통과시키겠다. 이게 ‘스마트패스’라는 사업이고요. 국제적으로는 ‘원 아이디(One-ID)’. 하나의 아이디라는 의미로 원 아이디라는 표준어를 쓰고 있고, 인천에서는 ‘스마트패스’라는 자기 브랜드를 만들어서 그 사업을 작년에 발주를 해서 아마 한 9월 정도에 1차 오픈을 하게 되는데, 그 사업을 저희가 수주해서 공급을 완료를 했습니다.”

-그렇습니까?

“그래서 공항 같은 곳에서도 앞으로는 2~3시간 전에 안 가시고 좀 일찍 가셔도 빠르게 발권하면서 얼굴을 한번 등록하면 얼굴인식으로 출입하시고 마지막 보딩도 얼굴인식으로 통과할 수 있는 그런 시대가 올 것 같습니다.”

-정부종합청사 같은 데도 많이 들어가 있는 것 같던데요.

“2017년 이후로 4대 정부종합청사에서 우리 회사의 제품이나 솔루션을 이미 쓰고 있고요. 그리고 작년에 고도화 사업을 발주를 했는데. 저희가 수주해서 전체 시스템들을 고도화 하고 작업을 했죠. 그래서 스마트 빌딩. ‘스마트’ 자가 들어가는 것들이 보면 결국은 사람의 육안으로 보고 인지하고 판단하는 것처럼 스마트 사업들에 저희가 많이 들어가 있죠.”

-아이폰 쓰는 사람들 보면 다 ‘페이스ID’로 얼굴을 인식을 하던데, 얼굴을 인식하는 기본 원리는 어떤 겁니까?

“AI라는 것 자체가 말 그대로 인공지능이잖아요. 사람의 뇌처럼 학습을 한다는 의미인데, 예전의 얼굴인식 알고리즘 같으면 우리 얼굴의 어떤 특징점을 추출을 할 때 눈과 눈 사이의 간격이라든지 코의 명암의 차이라든지 이런 것들을 뭔가 수학적으로 만든 알고리즘을 가지고 영상 처리로 유사도를 검색을 해서 ‘이 사람이 맞냐, 아니냐’ 이렇게 구분을 한 기술이라면, 지금 하고 있는 AI나 딥러닝은 사람의 뇌와 유사하죠. 일종의 통학습이죠. 예를 들어 직원이 100명이 있는데, 100명의 이름과 얼굴 사진을 보고 내가 일부러 외우려고 하면 외워지잖아요. 이거를 학습을 잘 하는 사람들은 수백명에서 수천명도 외울 수 있겠죠. 그리고 이렇게 사람들을 상대해서 서로 얼굴을 파악하는 습관이 된 모든 인류는 사람의 얼굴을 구분을 하잖아요. 예를 들어서 원본 사진하고 앞에 있는 사람 얼굴을 보고 같은 사람인지 아닌지를 우리는 저절로 판단하잖아요. 뭔가 계산하지 않지 않습니까? 그런 것처럼 딥러닝으로 학습된 얼굴인식 알고리즘도 동일한 원리로 사람의 얼굴을 판별을 하고 있고, 사람이 98% 정도의 사람의 얼굴을 구분하는 역량이 있다라고 하면, 지금 얼굴인식 알고리즘이 99.9% 이상. 사실상 사람보다 우월하게 올라갔어요. 예를 들면 10년 넘은 주민등록증 사진을 가지고 풍파를 많이 겪은 분을 만나면 좀 구분이 안 될 때가 있잖아요. 근데 알고리즘이 오히려 사람이 판단하는 것보다 훨씬 더 우월한 상태로 왔기 때문에, 이런 물리적인 보안에만 쓰는 게 아니고 금융권의 신원 인증. 금융권에 가서 만약에 신분증을 주고 나라는 걸 확인을 한 다음에 계좌를 개설하겠다. 이때 사람이 판단하는 것보다 실제 더 우월하거든요. 그래서 신원 인증 분야에 지금 또 얼굴인식이 굉장히 많이 확대가 되고 있습니다.”

-지금 금융권이랑도 같이 그런 사업도 하고 계신 거죠?

“저희가 작년에만 한 세 군데 금융기관, 신한금융투자, 신한카드, SK증권. 이렇게 계약을 해서 신분증과 얼굴을 통해서 그 사람이 맞는지를 확인을 하고 금융상품에 가입한다든지 하는 이런 서비스를 지금 공급을 시작을 했고, 이게 금융권에서 아마 올해와 내년 굉장히 폭발적으로 늘어나는 추세입니다.”

-성형수술을 너무 세게 해도 그런 것도 다 알아챕니까?

“아까도 말씀드렸지만, 알고리즘이 사람의 뉴런을 통해서 메모리를 통해서 저장하고 신경망끼리 소통하면서 뭔가 기억해내듯이 딥러닝도 원리가 구조적으로 똑같거든요. 그러다 보니 성형수술을 했는데 저 사람이 ‘코를 좀 많이 고쳤구나.’, ‘쌍꺼풀 수술을 했네.’ 우리가 이 정도는 동일한 사람이라는 걸 구분해내잖아요. 근데 여러 번에 걸쳐서 전반적인 수술을 해서 모든 게 많이 바뀌면 사람도 못 알아보는 경우가 생기잖아요. 알고리즘도 똑같다고 보시면 돼요. 사람이 구분할 정도의 변화는 ‘동일한 사람인데 어디가 조금 변했지만 이 사람이야.’ 인지하듯이 동일하게 인지할 수 있고요. 의도적인 어떤 수술을 통해서 전면적으로 고쳐졌다. 이러면 못 알아보죠. 예를 들면 일란성 쌍둥이에 대해서도 여러가지 말이 많은데, 기본적으로는 사람이 구분을 못할 정도라고 하면 알고리즘도 구분하기 어렵습니다.”

-그렇군요.

“그래서 사람과 거의 유사하다. 그렇게 생각하시면 될 것 같습니다.”

-이런 영상인식 기반의 기술 기업이 국내 상장 사례가 이번이 처음 아닙니까?

“얼굴인식을 가지고 상장한 유사한 회사가 있습니다.”

-그래요?

“알체라(Alchera). 이런 회사들이 있기도 하고요. 영상 분야 중에서 CCTV사업을 영유하면서 VMS(영상 관리 시스템)라고 하죠. 영상을 저장 관리해 놓는 쪽에서 일부 AI 기능들을 넣는 회사라든지, 카메라 엣지단에 특별한 기능들을 넣어서 예를 들면 연기 같은 것들을 감지해서 화재를 감지한다든지 하는 엣지단의 AI를 가지고 카메라를 보급하는 회사. 이런 회사들은 몇몇 상장한 회사들이 있는 걸로 알고 있고요. 저희처럼 얼굴인식을 플러스로 해서 다양한 영상 기반으로 하고 있는 업체는 딱히 많지는 않은 것 같습니다.”

-회사의 경쟁 우위라고 해야 될까요? 그런 걸 따지실 때 예를 들어서 정확도 혹은 오류율 이런 것들은 어떻게 측정을 합니까? 측정하는 기준이 있습니까? 아니면 ‘우리가 제일 좋아’라고 얘기할 수 있는 지표 같은 것들이 있습니까?

“영상인식 기반의 AI 전체로 보면 이게 수치로 얘기하기 어렵지만, 얼굴인식이라는 프로덕트로 한정을 한다고 하면 지표가 있습니다. 그게 미국의 ‘미국표준기술연구원’이라고 하는 NIST(National Institute of Standards and Technology)에서 FRVT(얼굴인식 밴더 테스트)라는 테스트를 하거든요. FRVT는 ‘Face Recognition Vendor Test’라고 전 세계의 얼굴인식을 개발하는 회사들이 모두 지원해서 테스트를 해서 수치적으로 인식 성능이 얼마고 전체 업계에서 몇 위 정도를 차지하는지 확인하는 테스트 사이트가 있습니다. 이게 왜 생겼냐 하면 한국에도 KISA(한국인터넷진흥원)라든가 하는 이런 공공기관들에서 원래 얼굴인식을 인증도 해주고 점수도 매기고 이렇게 했었는데요. 지금 한 3~4년 전부터 한국의 이 알고리즘을 우리가 제출을 하면 거의 대다수 업체가 만점이 나옵니다. 데이터가 변별력이 없다는 거죠. 4~5년 전에 수학적 기반의 알고리즘이었을 때는 그 데이터만 가지고도 변별력이 있었는데. 지금 딥러닝의 수준이 전반적으로 상향 평준화가 되다 보니까 예전에 만들어 놓은 데이터셋으로 구분이 안 되는 거죠. 이 상황은 한국뿐 아니라 전 세계 거의 다 비슷합니다. 근데 미국의 NIST(미국표준기술연구원)는 수천만명의 사람들의 사진을 2억장 이상 보유하고 있어서 굉장히 디테일하고 다양한 테스트가 가능한 데이터셋을 가지고 있습니다. 그래서 전 세계 표준처럼 되어 있죠. 여기에서 저희가 2021년 말 경우에 전체 20개 가까운 테스트 항목 중에서 5개 부문 1위를 차지했고요. 그중에서 공항의 이 ‘원아이디’ 인천공항 스마트패스 같은 것들을 위한 전용 테스트가 있거든요. ‘페이퍼리스 트래블(Paperless Travel)’ 종이 없는 여행. 이런 테스트 항목이 있는데, 공항에서 찍힌 사람들의 얼굴을 가지고 얼마나 인식 성능이 좋은가를 테스트했을 때 저희가 1위를 차지했고, 그 기술을 가지고 지금 인천공항에도 공급을 저희가 하고 있는 거죠. 그래서 물론 이 성적은 매번 갱신이 자주 되거든요. 그래서 올 하반기에도 저희가 업그레이드 된 알고리즘들을 제출해서 다시 한번 성능을 좀 올리려고 합니다. 지금은 저희가 2021년 말에 상당 부분 1위권을 유지하다가 지금은 1:N. 수십만명 중에서 한 사람을 찾는 이런 테스트들에서는 10위 권 내외를 유지 하고 있고요. 저희가 다시 올 가을 정도에 제출하면 다시 1위를 탈환하려고 그러고 있는 중입니다.”

-보안성은 어떻습니까? 위변조라고 해야 합니까? 많이 일어날 것 같은데. 영화에서도 보면 이렇게 하고 하는데 그런 것도 잘 잡아낼 수 있는 어떤 지표 같은 것들이 있습니까?

“말씀하신 것처럼 보안성이 얼굴인식을 쓰는데 하나의 걸림돌이거든요. 굉장히 인식도 잘하고 사람보다 잘 인식하긴 하는데. 의도적으로 속이려는 공격을 할 수 있죠. 예를 들면 제가 대표님 SNS에 가서 프로필 사진을 실사로 컬러출력을 한 다음에 눈 정도에만 구멍을 뚫어서 제가 종이 가면처럼 쓰면 대표님으로 인식을 하거든요.”

-그래요?

“그리고 스마트폰으로 대표님 얼굴을 촬영을 해서 단말기 앞에 갖다 댄다거나 혹은 50만원~100만원 정도를 주면 중국 통해서 실리콘 가면. 정말 실제 사람같이 거의 유사한 가면을 또 제작을 할 수도 있고.”

-첩보 영화에서나 나올 법 한거네요.

“탐크루즈가 나오는 영화들 보면 나오잖아요. 실제 제작이 가능하거든요. 그런 것들에 쉽게 뚫린다면 그 공격을 해서 얻을 수 있는 게 크다면 쓸 거잖아요.”

-그렇죠.

“그래서 그걸 막아내야 되는데, 기술적 용어로는 ‘라이브니스(Liveness)’. 살아있는 사람이냐 아니냐를 구분하는 기술이라고 해서 라이브니스라고 하는데, 그 기술이 절대적으로 필요하게 된 거죠. 예를 들면 인천공항에 가서 얼굴인식 기술을 쓴다라고 하면 그래도 거기는 지켜보는 보안 요원들이 존재하기 때문에 가면을 뒤집어 쓰고 일부러 가고 이러기가 어렵잖아요. 그래서 얼굴인식이 좀 빠르고 효율적인 인증수단으로 쓰는 거지만, 금융에서는 모바일로 비대면인 상태에서 제가 계좌도 개설하고 혹은 얼굴인식을 통해서 금액도 이체할 수 있다 그러면 이게 뚫린다면 금전적 피해가 굉장히 커질 수 있고, 또 얻을 수 있는 금전적인 게 많다라면 불법적인 공격도 만연할 수가 있기 때문에 얼굴인식 기술이 대중화 되는 시점에 가장 큰 걸림돌은 라이브니스(Liveness) 기술이 확보가 되느냐인데 씨유박스 경우는 크게 두 가지 기술을 가지고 있어요. 하나는 ‘액티브 라이브니스(Active Liveness)’라고 해서 얼굴인식을 할 때 사용자에게 지시를 하는 거예요. ‘왼쪽 눈을 감아라.’, ‘고개를 오른쪽으로 돌려라.’, ‘입을 벌려라.’ 이런 식의 몇 가지 조합된 우리의 얼굴로 할 수 있는 표정의 조합을 요구를 해서 그걸 따라 하면 살아있는 사람이고. 따라 하지 않는다면 진짜 사람의 얼굴이 아니라는 거죠. 이런 기술이 현재 인천공항에 적용이 되어서 서비스가 오픈을 하기 직전인 상태고요. 그런데 무언가 지시하고 따라 하는 거는 시간도 걸리고 불편하니까 그냥 얼굴만 촬영을 하면 진짜인지 가짜인지 알아봐주면 좋잖아요.”

-그렇죠.

“이걸 ‘패시브 라이브니스(Passive Liveness)’라고 하는데, 이 기술은 아직 현재 일반적인 이런 모바일 RGB 카메라로 완벽하게 하기가 어렵습니다. 근데 씨유박스가 가지고 있는 강점은 이 라이브니스 기술이 5초 정도 모바일 기기로 내 얼굴을 보면 사람의 얼굴에서의 생체신호들을 읽어낼 수 있어서 실제 실리콘이나 종이가면이나 예를 들어 모바일 기기의 동영상은 사람의 생체 신호가 발현되지 않거든요. 근데 실제 사람의 얼굴을 고해상도로 촬영을 5초 정도 하면 생체 신호를 읽어낼 수 있습니다. 그래서 이 기술을 접목한 패시브 방식의 라이브니스도 역시 저희가 개발을 해서 아까 말씀드린 금융권 세 곳에 저희가 공급을 했고, 이런 기술들은 기존에 국내나 타국에 있는 얼굴인식 알고리즘 업체들에 비해서 저희만의 독보적인 기술이고 강점이라고 말할 수 있습니다.”

-아까 미국의 미국국립표준기술연구소(NIST)에 지표 점수를 세운다고 말씀하셨는데. 거기에 애플의 페이스ID 이런 것도 있습니까?

“제가 애플은 정확히 기억을 못 하겠는데 마이크로소프트라든지 이런 글로벌 빅테크들이 이미 올라와 있고요. 그중에서 저희가 2021년 말에 실제로 1등을 한 거기 때문에 상당히 의미 있다고 말씀을 드릴 수 있습니다. 페이스ID는 단말기 안에 내 원본 얼굴을 저장해서 ‘남운성이 맞냐?’ 이거 한 번만 보는 거거든요. 이거는 비교적 쉬운 기술이고, 통상 공항이나 출입 보안이나 인증으로 쓰는 것들은 수십만~수백만명 중에서 내 얼굴만 보고 그중에 누군지를 알아맞히는 기술이니까 기술적으로 조금 더 어렵다고 할 수 있죠.”

-GPT3와 같은 언어 모델의 중추인 트랜스포머 모델도 뭔가 얼굴인식을 적용을 했다고 얘기를 들었는데 그거는 무슨 말입니까?

“트랜스포머 모델이나 이런 것들은 사람들이 들으면 그 영역에 있는 사람들은 알아 듣겠지만 사실 이해하기 어렵죠.”

-너무 어렵죠.

“근데 이렇게 생각하시면 될 것 같습니다. 이번에 나온 ChatGPT가 거의 사람처럼 말도 잘알아듣고 내가 요구하는 것들을 아주 박식한 사람처럼 설명도 해주고 문장도 만들어 내잖아요. 결국 엄청난 양의 지식을 학습을 시킨 거예요. 사람으로 치면 24시간 쉬지 않고 책을 보는데 한 1000년~2000년 정도 읽을 분량의 어마어마한 지식을 학습을 시킨 결과가 나온 거거든요. 트랜스포머라는 것이 단순 직역은 아니지만 우리가 ‘초거대 AI’라는 말을 최근에 많이 쓰잖아요. 그렇게 이해하시면 될 것 같습니다. 엄청나게 많은 지식과 정보의 양을 넣어서 학습할 수 있는 모델이 트랜스포머 모델, 초거대 AI라고 한다라면 ChatGPT는 language(언어)에 대한 초거대 AI를 구현을 한 거고요. ViT(비전 트랜스포머_Vision Transformers) 이런 모델들은 영상 분야에 초거대 AI를 구축할 수 있는 모델인 거죠. 예전에는 머신러닝 수십 년 전에 그런 인공지능이 있었는데 잘 안 됐었잖아요. 근데 이것이 최근에 딥러닝이라는 이름으로 10년 전부터 대규모의 데이터들을 학습할 수 있는 모델이 개발되면서 성능이 좋아졌고, 이거를 넘어서는 성능이 나오는 게 초거대 AI라는 거죠.”

-그게 트랜스포머 모델인거군요.

“그래서 언어 모델도 있지만 ViT(비전 트랜스포머_Vision Transformers)모델. 영상의 영역도 있는데, 아마 들어보셨을 것 같은데. 제가 간단히 텍스트로 여기 방의 이 상황을 설명하는 거죠. 예를 들면 ‘스튜디오에 책상들이 여러 개 있고 몇 명이 같이 토의하는 장면이야.’ 이런 간단한 설명을 하면 AI가 이 상황을 그림으로 그려줘요. 이런 게 가능한 세상이 이미 된 거고. 예를 들어서 제 얼굴을 촬영을 했는데, 아마 보신 적이 있을 것 같습니다만, 지금 제가 50대인데 ‘20대로 돌아가.’ 지금 제 얼굴을 기반으로 해서 20대의 모습으로 복원을 해준다든지 혹은 모바일 카메라로 제가 대표님 얼굴을 몇 컷을 찍었어요. 이거를 합성해서 입체화 된 영상으로 보여줘요. 혹은 예를 들어서 내 얼굴을 찍고 난 다음에 다양한 선글라스들을 피팅을 해볼 수 있고, 혹은 코 수술을 좀 하면 어떻게 바뀔까 이런 게 다 가능한 겁니다. 이게 지금 초거대 영상 AI 쪽에서 가능한 요소들이라고 말씀드릴 수 있겠습니다.”

-씨유박스에서 그런 기술을 적용 중이신 겁니까?

“씨유박스가 당연히 얼굴인식도 하지만 영상 영역이나 여러 영역을 하고 있고 넓혀가고 있는데, 이런 생성 AI, 초거대 AI를 적용을 해서 얼굴인식도 성능을 지금 많이 높여서 올 하반기에 높여진 알고리즘을 튜닝해서 미국국립표준기술연구소(NIST)에 제출하려고 하고 있고요. 그리고 우리 얼굴에 대한 모델들도 다양하게 변형하고 생성할 수 있거든요. 아까 말씀드린 것처럼 화장을 미리 해본다든지, 성형수술을 미리 해본다든지, 혹은 선글라스나 모자를 껴본다든지 하는 것도 다 생성 AI로 하는건데, 이런 것들도 저희가 지금 하고 있는 중이고요.”

-지금 회사의 AI 인프라는 뭘 쓰십니까?

“다들 알고 계신 것처럼 엔비디아의 GPU 장비를 써야지만 학습할 수 있는 상황이다 보니까 저희가 엔비디아의 GPU 서버 중에 ‘A100’이라는 모델이 가장 많이 알려진 모델인데, 이거를 저희가 한 10대 정도, 적어도 한 35억원~40억원 이 정도 보유를 하고 있고, 최근에 엔비디아의 ‘H100’이라고 초거대 AI를 돌릴 수 있는 고성능의 지표 장비들이 또 개발이 되었는데, 이거를 저희가 16대, 한 70억원대 이상 비용을 주고 구매를 했고.”

-구매를 했습니까?

“7월에 발주를 했고, 7월 말 정도에 저희한테 입고가 될 예정입니다. 그래서 저희 같은 중소기업 규모에서 GPU 장비에만 지금 100억원대 이상 투자하고 있는 회사인 거죠.”

-그런 것이 이 분야로 들어오는 진입장벽이 될 수 있겠어요. 그 정도의 인프라를 깔기가 쉽지 않을 것 같은데요.

“저희 정도의 규모면 국내 대기업들을 포함해서 10위권 정도 안에 들어갈 정도의 GPU 장비라고 알고 있고요. 그리고 전세계 슈퍼 컴퓨팅 파워로 봐서도 이 정도 수준이 300위 이내에 들어갈 정도 수준입니다. 그래서 왜 인프라가 중요하냐? 결국은 지금 AI의 성능을 내게 된 것은 딥러닝 시점부터 데이터가 많은 양을 학습할 수 있다는 것, 그리고 데이터를 한 번만 학습하는 게 아니거든요. 사람도 무언가를 공부할 때 책을 한 번 읽은 걸로 이해하는 게 아니잖아요. 반복해서 읽고 또 읽고 또 읽어서 소화가 되면 이게 자기의 지식이 되고 이걸로부터 또 창의적인 게 나오듯이 이 GPU 장비를 가지고 학습을 할 때 한 번 할 때, 100번 할 때, 200번 할 때가 결과가 다릅니다. 그래서 많은 학습을 해야 되고 학습을 하면서 좀 더 튜닝을 해서 성능을 높이는 과정을 거치는데. 만약에 얼굴인식을 대규모 데이터를 모아서 학습하는데 저희가 A100 장비를 가지고 10대가 있는데 만약에 일주일이 걸린다고 치면 H100 장비가 더 들어와서 반나절이 걸려요. 그럼 평상시보다도 효율이 10배나 20배가 좋아지는 거잖아요. 그러면 10번 학습할 때 100번 할 수 있고, 200번 할 수 있고, 동일한 시간을 바쳐서 훨씬 더 많이 학습하면서 좀 더 효과가 좋은 모델을 개선할 수 있는데 쓸 수가 있는 거죠. 결국은 좋은 컴퓨팅 파워는 좋은 인력과 합쳐져서 좋은 성능의 모델 알고리즘을 개발하는데 강력한 무기이기 때문에 저희로서는 이것도 경쟁력이라고 생각하고 있습니다.”

-그렇죠. 돈만 들여서 인프라만 깐다고 되는 것도 아니고, 또 개발 능력만 있어도 되는 것도 아니고, 두 가지가 다 있어야 되는 것이군요. 지금 인프라는 어디에 두고 있습니까?

“저희가 지금은 데이터센터에 두고 있는데. 현재는 서울에서 떨어진 오송에 두고 있습니다.”

-오송이요?

“네. 7월 말에 H100 장비가 들어오면 오송에 있는 장비들까지 합쳐서 서울로 이전시킬 계획입니다.”

-가까운 데에 있는 게 좋습니까?

“사실 물리적으로 고장이 나지 않는 한은 원격에서 모든 게 됩니다만, 또 일을 하다 보면 세팅이라든지 OS의 업그레이드라든지 이런 것들이 있기 때문에 아무래도 가까이 있는 것이 조금 더 효율적이죠.”

-그렇군요. 그러면 지금 이런 사업을 계속 고도화하면서 매출이 높아지고 사업 영역이 다각화되면 될수록 인프라는 계속적으로 확충을 해야 된다는 얘기입니까?

“네. 센스타임의 수장이었던 분이 얘기한 자료들을 찾아보면, AI 분야에서 경쟁력을 유지하고 성장하기 위한 필수적인 세 가지를 언급을 했는데. 첫 번째가 데이터. 두 번째가 GPU 파워, 세 번째가 인재거든요. 이 세 가지가 고루 성장을 해야 됩니다. 장비도 저희가 하고 있는 영역들을 넓히기 위해서 더 많이 필요하고. 이런 것들을 운용하고 돌릴 수 있는 적절한 AI 인재도 필요하고 또 우리가 진입하기 위한 영역의 데이터도 필요하죠.”

-데이터는 어떻게 구하십니까?

“저희가 직접 수급할 수 있는 여러 가지 방법들, 예를 들면 얼굴인식 같은 경우는 정부의 정책적 혜택을 저희가 많이 받습니다. 정부가 한 5년째 AI 학습용 데이터 사업을 통해서 굉장히 많은 투자를 공공데이터에 하고 있다 보니까. 연에 수십억씩 정부의 지원 정책들을 저희가 받아서 그런 유사한 데이터를 수집한 부분들도 있고요. 또 전 세계로 보면 또 학계에 공개돼 있는 데이터셋들을 저희가 수집해서 합쳐서 전체적으로 효율을 낼 수 있도록 개선하는 이런 방식들을 썼고요. 최근에 저희가 의료 AI에도 진출을 하고 있는데요. 의료 AI라면 아시겠지만 병원에서의 임상진단의 데이터가 필요한 거잖아요.”

-그렇죠.

“그래서 저희가 이름만 대면 알 만한 굉장한 대형 종합병원과 제휴를 해서 여기서 데이터와 의사들의 전문성으로 라벨링을 해야 학습을 할 수 있거든요. 그래서 이런 제휴를 통해서 또 데이터를 모으기도 합니다.”

-그거는 당장의 매출보다는 앞으로를 위해서 데이터를 모으는 과정인거군요.

“의료 AI 같은 새로운 영역에 진출하기 위해서 데이터를 모을 수 있는 유일한 방법이기도 하고. 데이터 외에 의사의 전문성 없이 진단 AI를 만들 수가 없잖아요. 그래서 종합병원은 데이터와 의사의 전문성을 제공을 하는 거고, 저희들은 컴퓨팅 파워와 AI 역량을 가지고 힘을 서로 합치는 거죠. 이렇게 해서 나온 진단 AI가 좋은 성능을 낸다. 그러면 보급을 통해서 저희가 수익을 공유할 수 있는 거죠.”

-수익 공유하는 데는 앞으로 시간이 좀 걸리겠죠?

“지금 저희가 협약을 맺어서 진행하는 거는 약 6개월 정도 프로젝트로 진행을 하는데. 6개월 뒤에 결과를 판단해보고, 진입이 빠를 수도 있다고 생각이 되는 게 본인들의 니즈가 있거든요. 그래서 이렇게 만들어진 결과들을 본인들이 먼저 사용을 하게 될 거고, 여기에서 좋아라고 한다면 확산이 빠르게 될 수 있다고 생각합니다.”

-어떤 분야입니까?

“지금 저희가 하려는 분야는 중이염. 귓 속에 중이염 같은 염증을 네 가지 정도로 진단하는 건데요. 보통 이비인후과 전문의가 아니면 진단 역량이 별로 없대요. 50% 정도 밖에 못 맞춘다고 하더라고요. 특히 서울 권역에 이비인후과 전문의들이 많이 있지만 지방에는 이비인후과 전문의들이 굉장히 부족한 상태이고 그들이 진단하면 전문성이 없다 보니까 사진을 보고도 50% 수준밖에 안 된다고 얘기하고요.”

-그래요?

“서울 권역에 있는 이비인후과 의사들도 한 80% 진단 성공률을 가지고 있다고 하니까, 명의라고 불리는 분들의 훌륭한 전문성을 가지고 잘 학습을 해서 만약에 80% 이상에서 90% 이렇게 진단 성공률을 가져간다라면 보급에는 문제가 없다고 저희가 보고 있습니다.”

-진단율이 50%로라는 말이 약간 조금 충격적이긴 한데. 보기가 어렵나 봐요. 그 사진만 보고서는 알기가 어렵다는거잖아요?

“특히 수도권과 지방의 의료 수준이 차이가 많이 난다고 합니다.”

-그래요?

“그래서 전문의들이 부족하니까 우리도 동네 병원에 가면 내과 전공하신 분이 이것저것 다 봐주시잖아요. 예를 들면 내과에 가면 귀 봐주시고 열 나면 코에 염증도 치료도 해주고 다 하시잖아요. 그래서 전문 영역으로 들어가면 지방 같은 경우는 전문의들이 없기 때문에 특히 중이염 진단은 굉장히 어렵대요. 전문의가 봐도 아직까지 80% 수준이라고 얘기하는 건 진단이 어렵다는 건데, 특히나 이 전문의가 아닌 분들이 보면 더 어려운 거죠.”

-그러면 중이염이 의심되는 귓속 사진을 찍고, 말씀하신 대로 실력 있는 의사분들이 라벨링을 한 데이터를 우리가 계속 받아서 이걸로 학습을 시켜서 정확도를 끌어올리는 작업을 하고 계시고. 그게 어느정도 되면 그게 결국은 병원에 실제로 데이터로 갈 수 있다. 사진만 찍어서 그냥 여기 올리면 ‘중이염이야, 아니야.’를 씨유박스의 솔루션에서 판단할 수 있다는 얘기입니까?

“그렇죠. 저희 목표는 그렇게 되어 있는 거고요. 저희도 의료 AI는 조심스럽게 접근을 한 게 의료 AI를 하는 전문업체들이 많이 있으신데. 그분들은 창업자들부터 의사 출신이시거나 복수전공하신 분들이 많으시잖아요. 근데 저희는 그런 전문성이 없기 때문에 처음부터 의료 AI 시장이 사업적으로도 의미가 있고. 또 기술을 가지고 사람들을 치유하는 데 쓴다는 것도 굉장히 의미가 있잖아요. 그래서 관심이 많았는데 다행히 모 대형 병원하고 제휴가 잘 돼서 저희가 스타트 하게 된 거고, 이걸 계기로 해서 다양한 형태의 진입하지 않은, 지금 기존에 많은 의료 AI 하는 업체들이 이 흉부 사진을 근간으로 한 다양한 진단으로 하고 있는데, 소외돼 있는 다른 나머지 영역들을 저희가 노려서 그런 영역의 의료 AI를 활성화하려고 지금 계획을 하고 있습니다.”

-인프라도 투자도 계속해야 되고, 이런 데이터셋도 계속 모아야 되고, 사람에 대한 것. 사람에 대한 것에 대해 제가 한번 여쭤보고 싶은데 지금 전체 인력이 몇 분 정도 됩니까?

“지금 120명 정도 있습니다.”

-그중에 이런 개발 역량을 갖고 있는 연구직들이 어느정도나 됩니까?

“저희가 전체 개발 인력의 60% 정도가 개발 인력이고요. 그중에 반 정도가 AI 쪽 인력으로 보시면 될 것 같습니다.”

-그래도 상장하고 나니까, 아직 상장한 지 얼마 안 됐지만, 인재 채용은 과거 대비 나아진 면이 있다고 보십니까? 어떻습니까?

“이제 한 달여 밖에 안 돼서 확실히 달라졌는지를 아직 체감은 못하고 있지만, 아마도 긍정적으로 작용할 거라고 보고 있고요. 저희가 작년 8월 같은 경우에 가산디지털단지에 있었는데. 참 아이러니하게도 이렇게 테헤란밸리에 오는 것만으로 인력 수급은 조금 더 좋아진 걸 이미 느끼고 있거든요.”

-그래요?

“그래서 이번에 상장을 했기 때문에 그래도 ‘상장할 정도의 규모와 역량은 되는 회사다.’라는 신뢰를 줄 수 있기 때문에. 인력 수급 면에서 좀 더 유리해질 걸로 예상을 하고 있습니다.”

-작년도 매출을 168억원 정도 이렇게 하셨어요. 근데 지금 90% 이상이 정부 수주. 아까 얘기하신 인천공항이라든지 출입국 관리. 그리고 정부종합청사 이런 쪽에 들어가는 정부 수주 같은 공공 부문에서 좀 나왔는데, 레퍼런스로는 굉장히 좋지만 마진이 되게 박한 거 아닌가라는 생각도 들고. 그래서 아까 의료 쪽도 말씀해 주셨는데. 혹시 민간영역의 의료 말고 다른 분야로도 확장하실 수 있는 계획 같은 게 있습니까?

“저희가 얼굴인식을 하다 보니까 공공 부문이 많은 것 같아요. 왜 그러냐 하면 가만히 생각해 보시면 얼굴인식 기술에 대해서 대중적으로 들으신 게 몇 년 되지 않지 않았습니까?”

-맞습니다.

“왜냐하면 얼굴인식의 성능이 좋아져서 실제로 민간에 쓰여지기 시작한 게 지금 불과 몇 년이 안 됐구요. 그 이전에는 고도화된 기술들이 쓰여지는 유일한 곳이 정부기관들. 보안을 요하는 곳이었습니다. 예를 들면 정부청사, 정부의 각급 보안 시설이거든요. 인천공항은 엄청난 보안이 요구되는 곳이고, 예를 들어 대통령실 경호처도 마찬가지고, 이런 곳들이 쓰여졌거든요. 그러다 보니 저희가 공공으로부터 시작을 한 것 같고요. 근데 지금은 어디에 쓰이느냐? 먼저 금융이나 기업체의 신원증명에 쓰여요. 아까 말씀드린 공공의 시장은 물리적인 보안이죠. 어떤 사람이 맞으면 여기를 출입시킬 거냐, 말 거냐 하는 물리적인 보안으로 레퍼런스가 만들어졌다면, 민간에서는 금융이나 B2B에서 신원 확인을 이제는 비대면으로 하는 시대가 되다 보니까 그런 영역에 쓰이기 시작한 거고요. 저희가 얼굴인식 때문에 AI를 하게 되었지만, 영상 AI를 하다 보니까 민간에 쓰여질 수 있는 기술이 월등히 많아요. 그래서 대표님이 해주신 질문에 답변을 하자면, 공공 영역에 한정돼 있다는 것은 시장을 성장하는 데도 한계성이 있거든요. 결국은 대한민국 내에서 공공을 저희가 상당 부분 점유하고 있는데, 거의 대부분 저희가 주요 보안 시설은 하고 있는데도 매출이 증가하는 건 한계가 있거든요. 결국 국내를 넘어서 해외로 가려고 하고 있는 중입니다. 인천공항에 공급한 것을 해외 공항으로, 우리나라 정부에 공급한 것을 해외 정부로, 이런 시도들을 저희가 올해부터 스타트하고 있는 중이고요. 그다음에 민간 영역에 대한 새로운 사업 모델들을 발굴을 하고 있죠. 그래서 의료 AI도 그런 시도 중에 저희가 하나 하고 있는 거고. 나머지는 저희가 물류 로봇을 하고 있는데, 쌓여져 있는 물건들을 보고 이 물건이 뭔지, 어디가 위에 있고 어디에 아래가 있는지, 위치와 각도가 최적이 뭔지를 파악을 해서 집어서 포장하는 거죠. 마켓컬리라든지 오아시스 이런 데 밤에 주문하면 아침에 배송이 되는데, 그 밤중에 물류 창고에서는 냉장고에 있는 많은 상자들을 가지고 와서 주문지를 보고 하나하나 찾아서 손으로 포장하고 있거든요. 이런 것들을 로봇이 카메라를 보고 인지하고 로봇팔로 자동적으로 포장하는, 그리고 이렇게 포장된 상자를 ‘매니퓰레이터(Manipulator)’라고 하죠. 적재 이동 로봇이 이동해서 딴 데 쌓아놓고 하는 이런 것들을 저희가 지금 개발을 하고 있고, 사실 지난주 한 4~5일 정도 KOFAS(제조자동화기술전)라고 제조 자동화 전시회에서 저희가 제품을 출품해서 인기가 굉장히 많았어요. 물류라든지 제조 공정에서 파레트 같은 걸 통해서 원재료들도 옮기고 다 하잖아요. 이런 용도에 쓸 수 있는 아주 특출하고 유용한 기술이라서 이런 영역도 현재 저희가 R&D는 일정한 성과를 내고 있고, 본격 사업화를 내년부터 하려고 하고 있습니다.”

-작년에 로봇 연구소 새로 만드신 게 다 그 사업의 일환이신거죠?

“작년 4월에 만들었고 카이스트에서 로보틱스 박사 5명 영입을 하면서 지금은 저희가 10여명 이상 인력이 늘었는데, R&D 성과는 굉장히 괄목할 만하게 나왔고요. 여러 군데서 함께 하자고 하는 제휴들이 많아서 올 하반기 내년 초부터는 좀 사업화도 많이 진도가 나갈 예정입니다.”

-그렇군요. 어쨌든 그 로봇도 코어 기술은 영상인식입니까?

“그렇죠. 로봇 팔 같은 것들은 기성품을 저희가 쓰고 있는데, 영상인식을 통해서 이 물건이 뭔지, 어떻게 위치하고 있는지, 그리고 이것을 짚기 위해서 파지점이라고 해서 짚는 위치, 각도 이런 거를 다 계산해야 되거든요. 이게 전부 다 AI 기술입니다. 그다음에 로봇 팔은 기성품을 쓰지만 실제로 마지막에 이걸 집어내는 이 손가락 ‘그리퍼’이라고 하는 이 기술은 저희가 독자적으로 만들어서 사용을 하고 있죠.”

-이거 잘 집어야 되겠는데요?

“방식이 현재는 진공 흡입하는 석션하고 손가락 그리퍼. 이 두 가지 방식을 다 사용하고 있습니다.”

-빨아들이면서 잡고, 우리가 뽑기 게임 하는 데 가면 잘 안 잡혀서 이게 떨어지면 안되니까, 두 가지가 다 있는 거군요. 지금 말씀하신 것 중에 그런 마켓컬리라든지 이런 신선식품 배송 이런 거 말고도 첨단 산업 쪽도 혹시 얘기가 되는 게 있습니까?

“기본적으로는 물류에 쓸 수 있지만, 제조 공정 기반에서도 원재료가 들어가서 무엇이 만들어지고 하잖아요. 그런 제조 공정 기반의 부품이나 재료들을 이송하고 파지하는, 집어서 옮기고 하는 이런 용도의 아주 정밀한 작업에도 쓸 수도 있고요. 그리고 영상인식이기 때문에 센서가 아닌 사람이 육안으로 판단되는 품질에 대한 퀄리티 검사 같은 것도 인공지능이 할 수 있기 때문에. 저희가 저희들 로보틱스 회사를 통해서 그런 영역을 진입을 하려고 하는 겁니다. 그래서 공공을 제외한 부분으로 보면 의료 AI도 진입이 스타트가 됐고, 로봇도 진도가 좀 나가고 있고, 초거대 AI를 활용한 생성 모델, 내 얼굴을 촬영을 하면 나의 다양한 캐릭터들, 만약에 ‘수채화 스타일로 내 캐릭터를 생성해줘.’ 저를 아는 대표님이 보면 제 얼굴인지는 알겠는데 남이 보면 누군지 알 수 없는 이런 캐릭터를 만드는 B2C 서비스도 저희가 하반기에 런칭을 하게 되고요.”

-그렇군요.

“그리고 얼굴을 통한 피팅 서비스 같은 것, 화장을 한다든지, 성형했을 때의 모습을 추정한다든지. 선글라스나 모자를 꼈을 때를 추정한다든지 하는 이런 쪽도 하고 있고.”

-그런 건 성형외과에서 좋아하겠는데요.

“필수적으로 필요한데, 기존에 남아 있는 기술들이 이 2D 기반 기술이다 보니까 실제처럼 잘 보여지지 않고 기술의 퀄리티가 좀 떨어지고 있거든요. 그래서 저희가 이거를 좀 많이 고도화 해서 실제 쓸 수 있을 수준 정도로 해서 서비스를 하려고 준비 중에 있는 상태죠.”

-대표님 회사에 신규 사업 개발하는 인력들도 꽤 많아야 되겠다라는 생각도 드네요. 왜냐하면 우리가 지금 말씀하신 여러 사업 영역에서 하고 있거나 앞으로 할 거를 설명을 해주셨는데, 우리가 모르는 어떤 영역에서 우리의 기술이 필요하다거나 시장이 있을 수도 있는 거 아니겠습니까?

“그래서 어떻게 보면 기술은 다양하게 확대할 수 있는 기반들을 준비를 했는데, 각 단위 사업들을 되도록 만드는 건 사업기획과 사업을 추진하는 사람들이 필요하거든요. 그래서 저희가 2019년 초반에 약 25명이던 회사가 불과 4년 만에 지금 120명이니까 4배가 증가했지 않습니까? 그럼에도 불구하고 여전히 사람들은 바쁘고 인력이 모자란 느낌이 있거든요. 어떻게 보면 매출은 연에 한 30~40%씩 시장에서 늘어나고 있지만, 앞서 말씀드린 그런 장비나 인력에 대한 투자들을 왕성하게 하다 보니 작년까지 저희가 적자였고요. 올해까지도 저희가 흑자로 전환은 어려울 것 같고. 저희가 예상하건데 내년에 계획대로 된다면 내년 말 이후부터는 흑자로 전환할 가능성이 있지 않을까싶고. 그렇게 하려고 노력하고 있습니다.”

-특별하게 더 어프로치하고 싶은 시장에 대해서 우리가 이거 잘 할 수 있다라든지 아니면 뭐 반도체나 배터리 분야에 우리가 접목해서 그쪽으로 사업을 확대할 계획을 갖고 계신게 있으실까요?

“잠깐 설명드렸지만 로보틱스 쪽에서 하는 기술을 응용을 해서 물류에도 쓸 수 있지만 제조 생산 파트에서 기본적으로 제조 공정이 위험하잖아요. 그래서 제조 공장 내에 안전 관리를 필요로 합니다. 그러다 보니까 정부가 ‘중대재해처벌법’ 이런 것들을 만들다 보니 기업들이 제조 환경에서의 사건 사고가 굉장히 회사 전체의 리스크가 됐거든요. 그래서 안전 관리를 위해서 CCTV 같은 영상을 통해서 사전에 위험을 인지하고, 경고하고 하는 이런 용도로 AI 기술들을 저희가 쓸 수가 있고. 그다음에 제조 제품의 생산 퀄리티를 검사하는 육안 검사를 필요로 하는 것들도 저희 기술을 쓸 수가 있고, 그다음에 물건의 재료나 부품이나 원재료 등을 제조 공장 내에서도 이송하고 집어서 옮기고 해야 되잖아요. 이런 용도로 옮기는 부분이 사실 저희 로보틱스에 다 포함된 기술들이라서 이차전지라든지 배터리라든지 이런 영역에 사업하시는 분들도 독자적인 기술을 가지고 할 수 있는 역량이 되는 분들도 계시겠지만 또 그렇지 않은 분들도 많잖아요. 그래서 많은 협력을 통해서 그런 영역에 진출할 수 있는 준비가 돼 있는 씨유박스이기 때문에 많이 활용을 해주시고, 협력을 할 수 있는 기회가 있으면 좋겠습니다.”

-대표님 오늘 말씀해 주셔서 고맙습니다.

“감사합니다.”

정리_송윤섭PD songyunseob@thelec.kr

Leave a Reply