[독일] 데이터서비스센터(ScaDS), 교육연구부의 빅데이터 센터 설립 정책의 효과 20170922
다양한 분야와 융합을 위한 HPC센터 운영
박동완 대기자
2024-06-15 오후 11:09:21
 
 데이터서비스센터(Competence Center for Scalable Dat"Services : ScaDS)
 Technische Universität Dresden
Zentrum für Informationsdienste
und Hochleistungsrechnen
01062 Dresden
Tel: +49 (0)351 463-42331
 
방문연수 독일 드레스덴    


□ 연수내용

◇ 디지털 아젠다 실행을 위한 데이터서비스센터 설립

○ 연수단이 방문한 데이터서비스센터는 정보서비스 및 고성능컴퓨팅센터(ZIH : Zentrum für Informationsdienste und Hochleistungsrechnen)의 산하 기관으로서 기능을 수행하고 있다.

집중 연구분야는 슈퍼 컴퓨팅과 빅데이터로 자체 연구 뿐만 아니라 응용과학자들이 별도로 있어 그들과의 네트워크 허브역할도 하고 있다.

○ 고성능컴퓨팅센터는 학부나 학교의 일부가 아닌 대학 중심기구로 학교 네트워크, 교내 이메일 등 대학을 위한 모든 IT서비스를 제공하고 있다.

과학자를 위해서 슈퍼컴퓨팅, 빅데이터 등 높은 수준의 서비스와 지원하고, 컴퓨터 과학 및 다양한 과학응용 분야의 연구 주제 및 재정지원을 받는 연구프로젝트를 진행하고 있다.

○ 데이터서비스센터는 교육연구부가 빅데이터 및 IT보안 분야에서 새롭게 추진하는 정책으로 센터를 통한 연구 활동이 독일의 디지털 아젠다 실행에 기여할 것으로 기대하고 있다.

○ 데이터서비스센터는 △드레스덴 공과대학 △라이프치히대학 △막스플랑크 세포생물학 유전자연구소 △라이프니츠 생태 공간개발연구소 등이 컨소시엄으로 운영하고 있으며, 약 155명이 파트별로 근무하고 있다. 슈퍼 컴퓨팅은 기업들과 협업을 진행하기도 하는데 현재는 인텔, 엔비디아와 협업 중에 있다.

◇ 데이터 접목과 협업을 통한 기술개발

○ 과학분야에서 문제 제기되고 있는 방대한 데이터의 양을 처리하기 위해 데이터서비스센터의 연구 프로젝트가 시작되었다. 응용과학자들은 데이터가 어떻게 활용될 것인지를 고민하고 활용도에 따라 어떻게 데이터 분석 및 인프라 구축을 해야 할지를 생각한다. 개별적 지식뿐만 아니라 어떤 방식으로 기술과 연결할 수 있는지를 연구하고 있다.

○ 고성능컴퓨팅센터의 연구 프로젝트는 △응용학문 분야 △기술분야 △통계분석의 총 3개 영역으로 구분된다. 데이터과학자는 이 세 가지 분야에 능통해야 하지만, 실제로 한가지 분야만 공부하기 때문에 세 가지에 능통하기 어렵다. 그래서 각각의 전문가로 구성된 팀을 만들어보자고 하여 데이터서비스센터가 시작되었다.

○ 연구주제는 생명과학, 소재과학, 환경·교통과학, 디지털 휴머니티, 비즈니스데이터 등 응용분야 5개 분야로 이루어져 있다.

빅 데이터 아키텍처는 전체연구를 위한 기본적이고 근본적인 영역이며 △데이터 활용 취합 △데이터 마이닝 △비주얼 분석 등 세분화된 영역들도 연구하고 있다.


▲ 데이터서비스센터의 연구분야[출처=브레인파크]


○ 데이터과학자를 육성하기 위해 데이터서비스센터는 독일교육연구부에서 후원하는 △드레스덴 대학교 △라이프치히 대학교 △생물 정보학 △라이프니츠 생태 공간개발연구소 총 4개의 핵심 기관들과 협업하고 있다. 2014년부터 4년 간 진행할 계획으로 프로젝트를 시작했으며, 올해 3년째에 접어들고 있다.

○ 그 외에도 SLUB(작센주립대학도서관) 등 융합 가능한 파트너와의 협업체계를 구축하는 등 다양한 기관들과 협업을 하고 있다. 파트너기관과는 협업의 성격을 고려하여 집중적으로 협업하기도 하지만 간접적으로 협력하기도 한다.

○ 20명의 전문가 직원이 드레스덴과 라이프치히에 나뉘어 근무하면서 빅 데이터의 생애주기 관리와 워크플로우를 연구한다. 데이터서비스센터는 기초연구를 토대로 응용과학에 활용하는 역할을 수행하고 있다.

◇ 데이터서비스센터 주요 연구 및 프로젝트

○ 데이터서비스센터는 △고성능 컴퓨팅 활용 데이터 분석 프로비저닝 △ 수술 도중 열화상 처리를 위한 데이터 분석 △재료과학 △토지사용 탐지 및 모니터링 등의 프로젝트를 수행하고 있다.

○ 현재 30개 이상의 연구프로젝트가 데이터서비스센터에서 진행 중이며 초기 지원이 있은 4년 후에 차기 4년 간 계속 지원할 것인지를 정부가 평가한다.

○ 고성능 컴퓨팅(HPC)에서의 데이터 분석을 위해 필요한 환경 프로비저닝에는 하둡, 스파크, 플링크, 기계학습 프레임워크 등이 있다.

요구에 따라 생성된 빅 데이터 세션은 HPC 사이트에서 분석 서비스로 직접 실행하며, 기타 프레임워크나 응용 프로그램에 적용이 가능하다.

○ 대규모 데이터를 중심으로 하는 작업절차의 실행은 HPC에 대한 사전 지식이 사용자 측에서 요구되지 않으며, 작업 절차 환경에서 직접적으로 작업량을 공식화하게 된다. HPC에서 작업 부하를 줄이거나 작업 절차를 완료하기 위해 HPC 스케줄링 매커니즘을 작업절차 모델링 프레임워크에 통합한다.

○ 수술 도중 열 화상 처리를 위한 데이터 분석은 열 화상 처리를 통해 수술지원이 지연되는 것을 줄여준다. 드레스덴 대학병원에서 수술 중 중요한 결정을 하는데 필요로 하는 데이터를 실시간으로 처리해 준다.

예를 들어 신경 활동을 모니터링 하기 위해서는 수술도중 장시간 측정이 필요한데, 후속 분석 작업 절차 및 결과 프리젠테이션의 지연시간을 줄이기 위한 빠른 사전정보 처리를 통해 전반적인 수술 지연을 최소화 하고 있다.

○ 재료과학은 플랫폼과는 별개로 시뮬레이션 데이터용 다중 스케일 뷰어를 활용하는 것으로 경량엔지니어링 및 고분자 기술연구소와의 협력을 통해 진행하고 있다.

시뮬레이션 데이터용 다중 스케일 뷰어는 다양한 스케일로 FE시뮬레이션 결과를 시각화하는 시스템으로 비전문가들과의 소통을 촉진하기 위해 브라우저 기반으로 개발되었다. 또한 분리된 클라이언트와 서버 아키텍쳐를 활용하고 있어 높은 확장성을 보유하고 있다.

◇ 다양한 분야와 융합을 위한 HPC센터 운영

○ HPC센터를 가지고 있어서 학문적인 지원을 할 수 있는 인프라가 잘 구축되어 있으며 이곳을 통해 파트너 사들이 하이 컴퓨팅 시스템을 활용한다.

이 센터에서는 빅 데이터 활용방법이 너무 다양하기 때문에 사용자들이 잘 활용할 수 있도록 지원하고, 시각화해서 보여준다. HPC 시스템은 사용자들이 빅 데이터를 활용한 연구결과를 쉽게 볼수있게 하기 위한 시스템이다.

데이터서비스센터 뿐 아니라 다양한 연구자들이 쉽게 접근할 수 있고, 작업 플로우 업무 사슬에 활용할 수 있다. 연구자들이 데이터를 입력하면 HPC시스템에서 구현할 수 있도록 지원하고 있다.

○ 생명공학에 기반한 연구시스템인데 사용자는 자신의 노트북을 통해서도 시스템으로 옮겨지도록 가능하게 만들어졌다. 이 시스템으로 인해 연구자들은 새로운 소프트웨어 프로그램을 배울 필요가 없다.

데이터를 집중적으로 활용하기 위한 시스템으로 자신의 연구소에서 작업하기만 하면 된다. 평소 오래 걸리던 연구들을 자신의 작업장에서 유의미한 결과를 빠른 시간 내에 보여줄 수 있는 시스템이다.

이러한 연구를 위해 굉장히 큰 규모의 데이터세트가 필요하다. 응용과학자는 하나의 고성능 컴퓨터만이 아닌, 여러 대의 고성능 컴퓨터를 동시에 운영해 연구시간을 대폭 줄일 수 있다.

◇ 데이터 분석의 다양한 활용 사례

○ 대표적인 의학분야 활용 사례는 ‘수술 도중 열 화상 처리(Intraoperative Thermal Imaging, ITI)’를 위한 데이터 분석이다.

수술시간 동안 다양한 데이터를 정확히 열사진으로 보여주기 위한 시스템으로 고성능 컴퓨터를 활용, 열 화상 처리를 통해 7,000초가 걸리던 것을 220배 빠른 32초 만에 보여준다. 사실, 수술사례의 수학적 분석은 어려운데, 수술하는 동안 어디에 용종이 있는지 분석을 통해 확인 가능하다.


▲ 급성 경막하 혈종의 열 화상 이미지[출처=브레인파크]


○ 엔지니어 시뮬레이션 사례로서 여러 스칼라를 통해 환경에 따라 다르게 구축한 소재과학 사례도 있다. 시뮬레이션 뿐 아니라 시각화를 통해 데이터 분석에의 적용이 가능하다.

시뮬레이션을 통해 어디에 문제가 있는지, 어디가 파괴되었는지 등을 여러 화면으로 동시에 볼 수가 있다. 시각화는 새로운 것이 아니지만 데이터를 통합해서 흥미 있는 결과를 시각화하는 것은 새로운 기술이다.

○ 엔드-투-엔드(E2E) 그래프 애널리스틱은 한 개 이상의 출처에서 얻은 데이터를 공통 그래프 데이터 모델이 있는 전용 그래프 저장소에 통합하여 한 번에 데이터를 보여준다.

디스플레이에서 각각의 시각화 된 데이터 뿐만 아니라 상호 작용을 통한 영향을 보여주는데, 이것을 생물학적 비주얼화라고 한다.

데이터 테이블과 그래픽만 볼 수 있는 게 아니라 데이터를 융합해서 활용하는 것까지 보여주는 그래프 애널리스틱이라고 할 수 있다.

이것은 개별 그래픽이나 연구결과를 하나의 큰 그래픽으로 구현함으로써, 기존 그래픽을 새로 창조할 수 있는 연구 분야다.


▲ 엔드-투-엔드 (E2E) 그래프 애널리스틱 구조도[출처=브레인파크]


○ 환경 관련 사례로서 데이터분석을 통해 지도상 나타난 흥미로운 지역을 골라내서 연구할 수 있다. 지도의 한 포인트 내에서 지역의 변화를 볼 수 있도록 구성되어 있으며, 거주지만 별도로 표시가 가능하다.

연구자들은 보고 싶은 구조, 수학적 분석, 개연성 등을 분석할 수 있다. 고성능컴퓨팅 시스템은 단순 데이터 분석 뿐 아니라 데이터 활용영역까지 활용할 수 있다.

◇ 국내외 협력

○ 데이터서비스센터는 컨퍼런스, 박람회 등을 통해 전세계적인 협업 연구를 진행하고 있다. 국제적 지원활동을 위해 데이터투데이, 비트콤 빅데이터 서밋, 포스템, 프링크 포워드 등과 120종 이상의 간행물 발간, 200회 이상의 국제회의를 진행했다.

○ 데이터서비스센터는 G. Myers 교수와 Carsten Rother 교수의 협업 프로젝트 ‘British Machine Vision Conference(BMVC)의 최우수 과학’ 논문상 수상, Rother 교수 팀 ‘SciVis-Contest IEEE VIS’ 우승, BTW 2017 (Gradoop)의 최우수 시연상, Dat"Science Challenge 3위 등 다양한 수상경력을 보유하고 있다.

○ 데이터서비스센터에서는 방문객을 위해서 △비즈니스 빅데이터 워크숍 △성공적 국제 여름학교 등을 운영하여, 250명 이상의 외국 방문객이 다녀갔다. 방문 프로그램을 통해 초청한 저명인사도 단기 21명, 중기 6명, 장기 3명 등 총 30명에 달한다.

○ 데이터서비스센터는 빅 데이터를 주제로 하는 60종 이상의 학·석사 학위 논문을 집필했으며, 빅데이터 인턴십 3개, 강의, 워크샵, 세미나 등 다양한 교육훈련을 진행하고 있다.

□ 질의응답

- 데이터서비스센터는 ZIH에 속한 여러 센터 중 하나인지.

"그렇다. 지금은 여러 센터들 중 하나이긴 하지만, 미래에는 분리될 것이고 더 커질 것이다. 독일교육부에서 데이터서비스센터 설립 프로젝트에 대해 재정지원을 받고 있는데, 4년간 펀딩을 받았으며, 앞으로 4년간 더 펀딩을 연장하려고 진행 중이다."

- 정부가 보유한 데이터를 활용하는 협력사업이 있는지.

"정부와의 직접적인 협력프로젝트는 없지만, 작센 환경청과 공공데이터를 활용해 하천의 수위가 어느 정도인지 파악하는 정도는 실시하고 있다.

사전에 대화와 분석을 통해 어떤 것이 가장 핵심 사안이고 어떻게 해결할지 논의하는 게 가장 중요하다는 것을 3년 동안의 경험에서 느꼈다."

- 기업의 요구에 따라 만든 사례가 있는지.

"우리는 연구기관이라 대부분이 연구에만 초점을 맞추고 있다. 하지만 파트너사인 BMW의 요청으로 현지 드레스덴 공장에서의 생산 관련 기업 빅 데이터 분석을 실시한 적도 있긴 하다. 우리는 비즈니스 모델을 만드는 것이 아니라 연구방법을 제시하고 연결해 주는 역할을 주로 한다."

- 전체 예산과 인력규모는.

"데이터서비스센터는 하나의 프로젝트로 봐야한다. 전담인력은 5명이지만 여러 학과에서 프로젝트 베이스로 센터 내 직원이 병행 투입된다. 순수 연구비 5백만 유로이며, HPC(고성능컴퓨팅)에 1천만 유로가 투입되고 있다."

- HPC시스템은 데이터센터와 함께 만들어졌는지.

"HPC는 이전부터 슈퍼컴퓨터 센터에 있었는데, 기존에는 전통적인 DB구축에 활용되었다."

- ZIH의 155명 직원구성은.

"주로 교수, 박사과정생, 연구 직원 등으로 구성되어 있다. 데이터센터는 ZIH 직원뿐 아니라 다양한 연구기관의 직원들이 함께 작업하고 있다."

- 다양한 리소스를 적용할 수 있는 구체적인 인프라는.

"우리는 슈퍼컴퓨터를 보유하고 있는데, 데이터 집약적인 HPC의 연결이라고 보면 된다. 향후에도 별도의 인프라는 필요하지 않고 기존 인프라를 융합적으로 활용하는 게 중요하다고 생각한다. 하둡과 같은 빅 데이터를 위한 별도의 인프라를 보유하기 보다는 결합을 어떻게 할지에 집중하고 있다."

- 기업이 보유한 데이터를 이 곳에서 분석할 수 있는지.

"협력프로젝트에서는, 여기에서도 분석이 가능하지만, 대체로 정밀 데이터분석을 하기 원하는 기업들은 국가소속의 센터에 연결을 해준다. 우리는 기업들에게 데이터서비스를 제공하기 보다는 기업이 데이터를 활용해 다양한 활동을 하도록 지원하고 있다."

□ 일일보고

◇ 슈퍼 컴퓨터를 기반으로 한 다양한 기관 간의 협업

○ ScaDS는 드레스덴 공대가 보유하고 있는 슈퍼컴퓨터를 활용한 빅 데이터 방법론을 적용하여 다양한 결과물을 제시하고 있다.

우리도 대학을 중심으로 데이터 과학자 육성이 필요하면 데이터 활용, 지식추출, 시각화 분석 등을 적용하여 대학의 특성화 분야와 연계한 다양한 결과물 창출이 필요하다.

○ ScaDS는 교육연구부 산하의 프로그램을 수행하는 기관으로 우리가 방문한 드레스덴 공대와 그 외 라이프치히 대학, 프라운호퍼 연구소가 함께 센터의 주요 역할을 하고 있다는 것이 인상적이었다.

○ 정보의 신뢰도 등 출처에 대한 정확도가 어느 정도인지 궁금하다. 한국의 경우, 정보의 부재, 특히 공공데이터의 부재로 인해 다방향간 노동은 부족한 실정이다. 독일과 한국은 빅 데이터의 수집과 분석의 정도 차이가 있을 것 같다.

◇ 실질적인 기업 활동에서의 적용방안 모색

○ ScaDS는 파트너들과 학제적 방식으로 연계된 긴밀한 네트워크를 구축하고 있으며, project에서 파생되는 다양한 결과물을 open source로 활용하고 있다.

○ 데이터에 초점을 맞춘 임무수행에 깊이 공감하였다. 즉 데이터와 기술이 어떻게 연관될 수 있는지를 연구하고, 함께 작업할 수 있는 환경 조성에 힘쓰고 있다는 점, 기업 스스로 데이터를 다루는 역량을 키우기 위해 분석방법을 전파하고 연구분석 매니지먼트를 수행하고 있다는 점에 깊이 공감하였다.

○ 우리도 실질적인 데이터 활용보다는 연구 중심의 센터로 의미있는 연구결과가 기업들에게 효과적으로 전해질 수 있는 시스템 마련이 필요하다. 연구결과가 연구로 끝이 나는 것이 아니라 직접적으로 기업 활동에 적용되는 것이 중요하다고 생각한다.

◇ 체계적인 데이터 과학자 육성

○ ScaDS는 초고성능 컴퓨팅을 기반으로 다양한 빅 데이터 관련 연구를 해당 도메인 연구자와 공동으로 진행하며, 연구성과를 바탕으로 각종 솔루션을 개발하고, 연구인력을 양성하는 것을 주요 기능으로 하고 있다.

이를 위해서는 산·학·연의 탄탄한 기반 구축, 특히 학계와 산업계의 적극적인 교류협력이 중요한 요소로 작용했을 것이다.

○ 데이터 과학자가 필요하다는 의견에 동의한다. 국내에서는 4차 산업혁명시대에 데이터가 중요하다는 것은 모두가 동의하나 이와 관련한 인재 육성 프로그램은 체계적이지 못한 것 같다.

○ 우리나라도 데이터 과학자의 육성을 통해 장기적으로는 각 기업이 자체적으로 data활용·분석 등을 할 수 있도록 해야 하며 이를 위해 중장기적 안목을 가진 정부의 인력양성 정책이 중요할 것이다.
저작권자 © 파랑새, 무단전재 및 재배포 금지
카카오톡 공유 보내기 버튼
관련 기사
Special Report 분류 내의 이전기사