Skip to main content

<인터뷰 원문>

진행 : 디일렉 한주엽 대표

출연 : 서울대학교 박근수 교수

 

-오늘은 서울대학교 컴퓨터공학부 박근수 교수님을 모셨습니다. 교수님 안녕하십니까.

“안녕하세요. 초대해 주셔서 감사합니다.”

-고맙습니다 와주셔서. ‘2022년 국가연구개발 우수성과 100선’ 그 안에 정보전자 분야의 ‘최우수성과’ 상을 받았다고 얘기를 해야 됩니까? 최우수성과를 냈다고 해서 작년 11월에 선정이 되셔서, 그 내용에 대해서 저희가 좀 들어보려고 오늘 모셨는데. 이게 지금 과학기술정보통신부하고 IITP(정보통신기획평가원) 이쪽에서 평가해서 선정된 겁니까?

“제 연구과제는 IITP(정보통신기획평가원)에서 지원하는 연구과제고요. 이 100선 심사는 과학기술정보통신부에서 모든 분야를 통틀어서 심사를 진행하는 내용이 되겠습니다.”

-그렇군요. 2022년 국가연구개발 우수성과 100선 안에 드신 거고 그중에서 정보전자 분야에서는 최우수성과, 1등 하신 건데. 지금 과제명이 ‘빅데이터 그래프 분석의 핵심 문제들에 대해 세계 최고 성능의 알고리즘을 개발하였다’인데. 지금 1년에 대한민국에서 R&D 과제 엄청 많지 않습니까?

“엄청 많습니다. 지금 우리나라가 GDP 대비 R&D 예산이 세계 2위거든요.”

-이스라엘 다음이죠.

“지원하는 R&D는 엄청 많습니다.”

-내년에는 좀 줄어들 것 같기는 한데. 근데 아무튼 거기 안에서 100위 안에 드는 것도 대단한데, 정보전자 분야에서는 최우수성과를 했다. 빅데이터 그래프 분석의 핵심 문제들에 대해 세계 최고 성능의 알고리즘 개발. 빅데이터와 그래프. 빅데이터 우리가 지금 인터넷 공간에 굉장히 많은 정형·비정형 데이터들이 있지 않습니까? 그걸 그래프화시키는 뭔가를 개발을 하신 건가 보죠?

“지금이 빅데이터 시대라고 얘기할 수 있는데요. 빅데이터가 크게 두 가지 형태로 존재합니다. 하나는 텍스트 형태로 존재하는 빅데이터가 있고요. 대표적인 게 책이죠. 책 같은 것들은 다 텍스트 형태의 빅데이터고.”

-뉴스 기사도 텍스트죠.

“텍스트가 가장 많은 빅데이터고요. 그다음에 또 많은 데이터가 그래프 형태로 존재하는 빅데이터들인데요. 빅데이터 그래프를 분석하는 그런 핵심 문제들이 있습니다. 그래서 그 문제들에 대해서 저희들이 세계 최고 성능의 알고리즘을 개발했습니다.”

-교수님께서 말씀하신 컴퓨터 공학도들이 얘기하는 그래프와 일반 사람들이 생각하는 그래프 개념은 약간 다른 것이죠?

“네. 컴퓨터 공학에서 말하는 그래프는 정점(Vertex)하고 간선(Edge)으로 구성돼 있는데요. 그러니까 정점이라는 것은 예를 들면 트위터에서 사용자가 정점이 되는 겁니다. 그래서 사용자 A가 있고 B가 있고 C가 있고. 그런데 사용자 A가 B를 팔로우하면 이 둘 사이의 관계를 간선으로 표시를 합니다. 그래서 그런 정점과 간선으로 표현되는 그것을 저희들이 그래프라고 부릅니다.”

-그렇군요. 그런 표현을 해야 되죠? 그래프가 있어야 우리가. 아니 다 그래프로 처리가 되나요?

“그렇죠. 현실에 존재하는 많은 데이터가 존재할 때 근본적으로 그래프 형태로 존재를 합니다. 그러니까 트위터 데이터도 그래프 형태로 존재를 하는 것이고요. 그다음에 화합물도 마찬가지인데요. 화합물도 탄소, 산소 이것들이 이렇게 본드로 연결돼 있거든요. 그러면 그 분자 구조가 근본적으로 그래프 형태를 가지고 있습니다.”

-그렇군요. 그래서 여러 가지 개발을 하셨어요. 지금까지 공개된 건 제가 한 5가지 정도로 알고 있고. 부분그래프 질의 처리, 부분그래프 매칭, 연속적인 부분그래프 매칭 이런 게 여러 가지가 있는데. 5개를 한번 순차적으로 이거는 어떨 때 쓰는 거고 이거는 어떨 때 쓰는 건지 일반인들이 알아듣기 쉽게 설명을 좀 해 주시겠습니까?

“첫 번째 문제는 트위터 같은 소셜 네트워크 안에서 내가 특정한 패턴을 찾고 싶을 때 적용할 수 있는 기술이 되겠습니다.”

-그게 부분그래프 질의 처리인거예요?

“첫 번째 부분그래프 매칭입니다.”

-그거는 그럼 “트위터 안에 팔로워가 100만명이 넘는 사람들을 내가 한번 찾아보겠어.” 하면 찾을 수 있는 겁니까?

“그렇습니다. 그러니까 그 패턴이라는 게 트위터 안에서 예를 들면 “팔로워가 1만명 이상인 사람을 찾아라.” 이렇게 하면 팔로워가 1만명 이상인 사람이 패턴이 되는 거죠. 그래서 저희 알고리즘을 돌리면 트위터 그래프에서 그런 사람을 전부 찾아줍니다.”

-간선이 1만개인 사람들을 다 찾는 거군요?

“그렇죠.”

-다양하게 시도할 수 있겠는데요.

“다양한 패턴을 가지고 돌릴 수가 있습니다.”

-예를 들어서 하여튼 굉장히 많은 사람들이 서로 맞팔로우를, 그것도 데이터로 이렇게 “1만개 이상 맞팔로우가 있는 사람을 찾아라.” 라든지 그건 정하기 나름일 것 같은데. 그거가 있고 그다음 또 뭐가 있습니까?

“그다음에 또 한 가지는 인터넷상에서 사이버 공격, 예를 들면 디도스 공격 같은 것을 탐지하는 데 사용할 수 있는 알고리즘이 저희가 개발한 알고리즘 중에 세 번째가 되겠습니다.”

-그건 어떻게 찾아내는 거죠?

“예를 들면 디도스 공격이 여러 컴퓨터가 1대의 컴퓨터를 대상으로 동시에 메시지를 보내는.”

-접속을 계속하죠.

“접속을 하려고 하는 그런 공격이기 때문에 그것도 하나의 패턴, 별 모양의 패턴으로 저희가 정의할 수 있거든요. 그래서 인터넷상에서 그러한 공격이 나타나면 바로 그것을 탐지할 수 있도록 그렇게 돼 있습니다.”

-그러면 그런 패턴은 디도스 공격을 막아주는 어떤 솔루션을 개발하거나 하는 이런 회사들이 일부 차용해 와서, 서버 위에 올려놓고 디도스 공격을 사전에 알려주거나 궁극적으로는 좀 차단시키면서 막는 용도로 활용할 수 있겠네요.

“그렇습니다. 그리고 디도스 공격이 일어났을 때 그 디도스 공격의 발원지가 어딘지를 찾아줄 수 있습니다. 실제로 그 디도스 공격을 하는 시점에 트래픽을 보내는 컴퓨터들은 좀비 컴퓨터인데요. 얘네들을 좀비로 만든 컴퓨터가 있거든요. 그 근원이 되는 이 컴퓨터를 찾을 수 있습니다.”

-그렇군요. 또 뭐가 있죠? 그거 말고 또 설명하실 게.

“화합물 데이터베이스에 그 화합물이 엄청 많이 있을 때. 신약 개발의 첫 번째 단계가 그중에 독성을 가지고 있는 화합물이 어떤 것인지를 찾아서 그걸 걸러내는 작업인데요. 그 독성을 가지고 있는 그런 화합물을 찾아내는 작업을 할 수가 있습니다. 그게 저희가 개발한 다섯 번째 기술이 되겠습니다.”

-교수님 논문 발표하신 거 보면 개선율이 3000% 어떤 거는 40000%, 12000% 이렇게 거의 100배~400배 맞습니까? 이렇게 개선됐다고 돼 있는데. 아니 기존에는 이런 알고리즘들이 성능이 별로 안 좋았나 봐요?

“이전에도 연구를 많이 해서 알고리즘들이 많이 있었기는 하지만, 성능이 그렇게 좋지는 않았습니다. 그래서 아까 패턴을 찾는 문제 같은 경우는 패턴이 커지면 성능이 굉장히 나빠지는, 굉장히 오랜 시간이 걸리는 그런 알고리즘들이었는데요. 저희는 그것보다도 훨씬 더 좋은 알고리즘 기법들을 저희들이 새롭게 개발을 해서 더 큰 향상을 얻을 수 있었습니다.”

-이거는 학회에서 논문 발표하신 건가요?

“네.”

-5가지 아까 그래프 처리 방법론에 대해서는 한 번에 다 발표하신 겁니까? 아니면 5개를 개별적으로 발표하신 겁니까?

“논문이 5개가 있는 겁니다. 개별적으로 하나씩 있는 거고요. 그래서 이 연구 결과는 빅데이터 분석하는 분야에서 최우수 학술대회 SIGMOD(ACM Special Interest Group on Management of Data)와 VLDB(International Conference on Very Large Data Bases)라는 학회가 있는데요. 그 학술대회에서 발표된 논문이 되겠습니다.”

-그리고 작년에 국가연구개발 우수성과 100선 정보전자 분야 최우수성과로 선정이 되었다. 향상률이 엄청 높아서 그런 거라고 봐야 되겠습니까?

“그런 걸로 이해하고 있고요. 그다음에 저희가 이쪽 분야에서 도장 깨기를 진행하고 있다고 그렇게 설명을 했습니다.”

-도장 깨기를 한다.

“도장 깨기라는 것이 태권도장이나 합기도장 이렇게 돌아다니면서 거기 있는 고수들을 차례차례 깨는 것을 “도장(道場) 깨기”라고 부르는데. 저희 연구실은 원래 컴퓨터이론을 전공한 연구실이었는데, 빅데이터 분석 알고리즘 분야로 저희가 들어와서 이쪽에서 가장 중요한 문제들에 대해서 최고 성능의 알고리즘을 차례차례 얻고 있기 때문에. 그것이 마치 도장 깨기 같은 거다 해서 저희가 하는 작업을 “도장(道場) 깨기”라고 표현을 했습니다.”

-그렇군요. 아니 교수님이 이 5가지 이 논문에 대해서는 지금 논문 제목을 저희가 구글링 하면 어딘가에서 그냥 바로 볼 수 있습니까?

“네, 다 인터넷상에 있습니다.”

-궁금하신 분들은 저희가 영상에 링크를 밑에 달아드릴 테니까 한번 보시면 좋을 것 같고. 그것까지 보기 힘들다고 하시는 분들을 위해서. 그럼 어떻게 이렇게 성능이, 아까 말씀하시기로는 “기존 게 좀 느렸던 거 아닌가.” 이렇게 말씀하셨는데. 너무 겸손한 말씀이신 것 같고. 빨라질 수 있게 된 개선의 가장 큰 배경은 무엇입니까?

“제가 원래 컴퓨터이론이라는 분야를 전공을 했습니다. 컴퓨터이론이라는 분야는 컴퓨터로 해결하려고 하는 문제들의 난이도를 연구하는 분야인데요. 그래서 “이 문제가 얼마큼 어려운 문제인가.” “또 A라는 문제가 B문제보다 더 어려운 문제인가 쉬운 문제인가.” 이런 것을 연구하는 분야입니다. 그래서 저희들이 기본적으로 이 문제들에 대한 난이도의 이해력이 아마 다른 연구자들보다는 더 깊이 있었던 것 같고요. 그래서 저희들이 그 난이도에 대한 이해를 기반으로 해서 이 문제를 푸는 적절한 알고리즘 기법이 무엇인지를 생각해서, 새로운 그런 알고리즘 기법들을 저희들이 여러 개 만들어냈습니다. 그래서 그런 알고리즘 기법을 통해서 좋은 성능을 얻을 수가 있었습니다.”

-5가지 논문에는 공통적으로 그게 들어간 겁니까?

“저희가 새로 만든 기법이 공통적으로 들어간 것도 있고요. 문제마다 또 새롭게 저희들이 만들어낸 기법들이 다 있습니다.”

-그렇군요. 이거는 알고리즘을 만들고 테스트하셔야 되잖아요. 어떤 환경에서 했습니까? 예를 들어서 데이터도 어디서 가져와야 될 거고. 어딘가 이렇게 로컬에서 그냥 자료를 다운받아서 하신 건지 어디 클라우드에 올려놓고 하신 건지 궁금하거든요.

“이쪽의 빅데이터 그래프들은 지금 스탠포드의 라이브러리를 만들어 놓고 있어가지고요. 거기에 다 올려져 있습니다. 그러니까 이쪽 분야 연구자들이 전부 그 데이터를 다운받아서 실험을 하고요. 저희들의 실험 환경은 KT에서 제공하는 클라우드 서버가 있는데, 저희들이 클라우드 서버에서 저희 알고리즘뿐만 아니라 이전 알고리즘들도 같이 돌려가지고 성능이 어떻게 나오는지를 저희가 테스트를 하는 식으로 실험을 진행하고 있습니다.”

-예를 들어 부분그래프 매칭 이런 것들은 기존 코드가 있나 보죠? 기존에 연구자들이 만들어놓은 코드요?

“기존 연구들이 기본적으로 실행 파일은 다 인터넷상에 올려놓게 돼 있습니다. 그러니까 저희들이 실행 파일은 다 가져다가 실험을 해볼 수가 있습니다.”

-그러니까 그거랑 비교했을 때 우리가 그것 대비 한 3000배는 빠르다는 걸 측정을 하시고.

“수십 배 내지 수백 배 빠르다는 걸 저희들이 직접 측정을 해서 논문에 발표를 한 겁니다.”

-근데 원래 이런 것들은 다 그렇게 공짜로 공개를 하는 겁니까?

“학문의 발전을 위해서 그쪽 빅데이터 분야에서 그렇게 정한 거죠. “적어도 실행 파일은 다 올려놔라.” 그래야지 그 이후에 연구가 진행될 수 있으니까요. 그렇게 진행을 하고 있습니다.”

-실행 파일만 올려놨을 때는 제가 그걸 갖고 와서 안에 뜯어보지는 못하는 거죠?

“뜯어보지는 못합니다.”

-그냥 한번 돌려만 보는 거고.

“돌려만 볼 수 있는 거죠.”

-그럼 이걸로 내가 교수님 연구팀에서 이렇게 하신 그 성과물로 사업을 하고 싶다. 아까 디도스를 방지한다거나 그런 텍스트 기반의 빅데이터를 좀 돌려서 매칭해서 어떤 데이터를 끄집어낸다거나, 혹은 아까 신약 개발할 때 몸에 안 좋은 독성 있는 물질들을 찾아낸다고 하는 거를 제가 하려면 실행 파일만 갖고는 안 되잖아요?

“그렇습니다.”

-그럼 코드가 있어야 됩니까?

“그렇게 저희 알고리즘에 기반해서 실제로 상용화된 그런 제품을 만들려면 소스 코드가 있어야 됩니다. 코드 형태로 다 있어야 그걸 보고 거기에 약간의 작업을 해서 그 회사만의 제품을 만들 수가 있는 거죠.”

-그건 돈 받고 파시는 겁니까? 어떻게 합니까?

“돈을 받고 팔지는 않고요. 저희는 일단은 실행 파일은 전 세계 모든 사람이 볼 수 있도록 저희가 깃허브(GitHub) 올려놓고 있고요. 국내 신약 개발하는 스타트업은 저희한테 연락이 와서 제가 간단하게 컨설팅을 하면서 이 소스 코드를 제공을 했습니다.”

-그래요? 그 회사 이름은 뭐죠?

“㈜AIgenDrug라는 회사인데요. 컴퓨터 기술에 기반해서 신약 개발의 프로세스를 좀 더 빠르게 할 수 있는 그런 기술을 개발하는 회사가 되겠습니다.”

-돈 받고 팔아야 되는 거 아닙니까?

“제가 이쪽 분야에서 오랜 기간을 연구를 했는데요. 그래서 이전에 특허도 많이 내고 그렇게 했는데. 이 소프트웨어의 특성이 뭐냐 하면 특허를 내놓으면 안 씁니다.”

-특허를 내면 안 써요?

“특허를 내면 안 쓰고. 논문은 다 발표가 돼 있기 때문에 아이디어를 약간 바꿔가지고 쓴다든지 이런 식으로 하지. 직접 연락을 해가지고 돈을 주고 특허를 쓰는 경우가 거의 없더라고요. 그래서 그냥 그렇게 하는 것보다는 기술을 공개하는 것이 좀 더 도움이 되겠다 생각해서 그렇게 진행하고 있습니다.”

-교수님 그 기술로 아까 그 ㈜AIgenDrug 그런 회사가 신약 개발을 하고. 하여튼 그런 게 좀 사회적으로 좋은 방향으로 잘 쓰이면 되게 좋은 일이라고 생각이 좀 드네요.

“그렇게 기대를 하고 있습니다.”

-지금 과제비는 얼마나 받으신 겁니까?

“저희가 IITP(정보통신기획평가원)를 통해서 스타랩 프로그램으로 지원을 받는 건데요. 1년에 3억원씩 해서 전체 8년 동안 진행되는 과제가 되겠습니다.”

-몇 년 하신 거죠?

“올해가 6년째 진행하고 있습니다.”

-그럼 지금 5개는 지난 5년간 이렇게 하신 거네요?

“네.”

-그럼 지금 3년 정도 남은 거네요? 2년 몇 개월 정도 남은 거죠? 지금 다르게 하고 계신 게 있습니까?

“지금도 아까 말씀드린 도장 깨기를 계속 진행하고 있고요. 현재도 저희가 한 3~4개 정도의 알고리즘을 지금 개발 중에 있습니다. 그중에 일부는 이미 기존 것보다 훨씬 좋은 성능이 나오는 것을 저희들이 확인한 내용도 있습니다.”

-이미 지금 발표하신 논문 5개 외에 지금 한 2~3개 정도 더 연구를 하고 계시다는 거죠? 그 중에 지금 어느 정도 성과가 나온 걸 소개 좀 해 주실 수 있을까요?

“저희가 지금 성과가 나온 것은 아까 트위터 그래프 같은 그런 빅데이터 그래프에서 “팔로워들이 가장 밀집된 곳이 어떤 곳인가.” 하는 것을 찾는 그러한 문제가 또 많은 사람들이 연구를 한 건데요. 그 문제에 대해서 저희가 좋은 성능을 보이는 알고리즘을 개발했습니다.”

-주로 연예인 이런 쪽에 관심이 많이 있지 않을까요? BTS나 블랙핑크 이런 쪽이 좀 많지 않을까 싶기도 한데. 그런 거 찾는 거죠?

“네.”

-그것도 실시간으로 찾게 되는 겁니까? 어떻게 하는 겁니까?

“이건 빅데이터 그래프가 그냥 있으면 거기서 찾는 그런 내용이 되겠습니다.”

-현재 RT가 갑자기 급증하고 있다거나 뭐 이런 걸 우리가 그때그때 집어넣으면 바로 볼 수 있는 거예요?

“그건 실시간 데이터가 있어야 되는 거죠. 저희는 실시간 데이터는 없고 기존에 공개된 데이터에 대해서만 실험을 하고 있습니다. 그리고 사실은 그렇게 밀집된 곳을 찾는 것은 이런 응용도 있을 수 있는데요. 구글이나 네이버에서 검색을 제공하는데 거기 랭킹이 굉장히 중요하지 않습니까?”

-요즘 공개 잘 안 하더라고요.

“그래서 사람들이 자기 것에 랭킹을 올리는 작업을 많이 합니다.”

-과거에 많이 했죠.

“지금도 많이 있을 것 같은데요. 그러니까 내가 홈페이지를 만들어 놨으면, 홈페이지를 여러 개 만들어서 서로 링크를 걸어놓거든요. 그러면 이 홈페이지가 중요한 것처럼 느끼고 랭킹이 올라가고 이렇게 되는데. 그렇게 밀집된 링크가 있는 곳을 저희가 만든 알고리즘을 사용하면 찾아낼 수가 있습니다.”

-그렇군요. 치팅을 할 수 있다는 겁니까? 말하자면, 그러니까 실시간 검색어에 영향을 줄 수도 있다는 얘기입니까? 있다면?

“그럼요. 실제로 랭킹을 올리기 위해서 굉장히 다양한 작업이 진행이 되고 있고요.”

-그거 하지 말라고 지금.

“구글하고 네이버는 그걸 막기 위해서 엄청 노력하고 그러고 있는 거죠.”

-아까 말씀하신 디도스 공격 막는 그거하고는 약간 좀 배치되는 것 같기도 하네요. 그걸로 또 찾아낼 수 있는 거 아닙니까?

“좀 문맥이 다르죠. 그거하고는.”

-그렇군요. 아니 지금 교수님 학교에 연구팀 몇 명이나 있습니까?

“저희가 되게 대학원생들이 석·박사 합해서 10명 약간 넘는 정도를 계속 유지하고 있습니다. 한 12~13명 정도 되는 규모를 유지하고 있습니다.”

-아니 지금 교수님 계신 곳은 컴퓨터공학부니까 어떨지 잘 모르겠는데. 이런 데이터 사이언스(DS) 쪽에 있는 석·박사 인력들은 요즘 몸값이 엄청 비싸다면서요? 맞습니까?

“네.”

-그래요 실제로?

“저희 과 졸업생들은 취직하는 데는 문제가 없죠.”

-그래요? 과거 대비 몸값이 많이 올랐다고 생각되십니까?

“근데 많이 올라가긴 올랐는데요. 약간 부침이 있습니다. 그래서 몇 년 전에는 막 엄청 올라갔다가 최근에는 또 약간 떨어지기도 하고.”

-“너무 인플레이션이 심한 거 아니냐.” 이런 식의 얘기들도 있잖아요. 개발하시는 분들.

“그런데 어쨌든 이쪽 분야 인력의 수요가 많은 것은 아주 명확한 사실이고요. 연봉은 약간 좀 올라갔다 내려갔다 하는 경향이 있는 것 같습니다.”

-그렇군요. 한 10명 정도 계속 유지를 계속하시는 거군요.

“네.”

-교수님 개발하시고 있는 나머지 과제들 또 잘하셔서 기존처럼 몇 십배, 몇 백배의 개선율을 갖는 좋은 성과물을 내면 좋겠습니다.

“감사합니다.”

-고맙습니다.

정리_안영희 PD anyounghee@thelec.kr

Leave a Reply