본문 바로가기
공학이야기

데이터 엔지니어에 관한 모든 것(정의, 역할, 하는 일)

by 핸들이없는8톤트럭 2022. 12. 7.
반응형

안녕하세요. 최근 들어 주목 받고 있는 직업에 관하여 알아보는 시간을 가져보고자 합니다. 요새 모든 분야에서 가장 핫한 직업이 바로 데이터 엔지니어인데요. 이에 관해서 알아봅시다.

 

코딩하는남자

 

 

데이터 엔지니어란

서비스 제공의 안정성을 보장하기 위해 서비스 성능관리기준에 따라 서비스 성능을 측정합니다. 서비스 성능개선을 위해 성능 지연 발생 시 근본 원인을 파악하고 제거합니다. 서비스 가용성 관리기준에 따라 가용성을 측정하고 서비스 가용성 관리기준 미준수 시 근본 원인을 분석합니다. 서비스 가용성 향상을 위해 서비스 가용성을 저해하는 근본 원인을 제거합니다. 서비스 품질보증을 위하여 서비스 변경내역을 관리합니다. 사용자 및 서비스 운영자 변화관리를 위하여 서비스 변경 발생 시 변경된 내용을 전파합니다. 변경 내용이 안정적으로 적용되었는지 확인하기 위하여 제공서비스를 모니터링합니다. —> 이렇게 네이버 사전에 정의되어 있습니다. 이렇게만 설명한다면 정말 무책임한 포스팅이 될 것 같아서 찾아보고 정리해보았습니다.

 

 

 

 

우선 데이터 직무에 관해서 알아봅시다. 데이터 직무에는 데이터 자체에 집중하는 직무와 이를 이용하여 비즈니스에 적용하는 직무로 나뉘는데요.

 

데이터 집중 직무

데이터 엔지니어, 데이터 사이언티스트, 데이터 분석가

 

데이터 활용 직무

비즈니스 분석가, 마케터, HR 분석가, 해커 등

 

데이터 엔지니어 - 데이터를 수집 및 관리하는 직무

데이터 사이언티스트 - 데이터를 토대로 예측

데이터 분석가 - 데이터를 토대로 현재 상황을 분석

 

위와 같이 데이터 직무를 나눌 수 있는데요. 무 자르듯 그 직무의 경계가 분명치 않은 것이 특징입니다. 어느 날은 데이터 엔지니어가 되었다가도, 어떤 날은 데이터 사이언티스트가 되기도 하니까요. 그래서 이러한 직무를 수행하는 이들을 통틀어서 "데이터 엔지니어"라고 합니다.

 

 

 

 

데이터 엔지니어가 필요한 이유

산업에는 프런트엔드, 백엔드 엔지니어 등 여러 직무가 있습니다. 이 중 백엔드 엔지니어 역시도 데이터와 관련된 업무를 많이 하고 데이터베이스 관련 지식도 필수적입니다. 어떤 회사에서는 데이터 엔지니어의 역할까지 백엔드 엔지니어가 함께 수행하기도 합니다. 그렇다면 데이터 엔지니어라는 직무가 따로 필요한 이유는 무엇일까요?

 

데이터 엔지니어라는 역할의 필요성이 커지게 된 이유는 빅데이터라는 키워드와 밀접한 관련이 있다고 하는데요. 그럼 빅데이터가 무엇인지 간단히 정리해보자. IT산업에서 데이터의 중요성은 비교적 최근부터 급격히 커지기 시작했습니다. 왜냐하면 이전에는 많은 데이터를 저장하는 것에 대한 비용 부담이 크기도 하고 설령 저장한다고 한들 그만한 데이터를 분석할 수 있는 환경도 조성되지 못했으며 그만한 사업적 가치를 인정받지도 못했기 때문입니다.

 

하지만 클라우드 환경의 활용 가치가 높아지고 데이터 관련 기술이 발전하면서 이전에는 버려지던 데이터들을 모아 사업 모델을 만드는 기업들이 점차 늘어갔습니다. 이를테면 기존 서비스를 업그레이드시키거나 광고 또는 마케팅 등으로 돈을 벌었습니다. 이처럼 데이터를 잘 활용한 기업들의 성공 사례가 많아지면서 데이터의 활용 가치에 대한 시장의 관심이 매우 높아졌습니다.

 

이때부터 기업에 쌓이는 데이터의 양이 매우 많아지기 시작했고 이렇게 형성된 거대한 데이터는 기존 데이터베이스(RD)와 전통적 분석 방식을 통해서는 활용하기가 힘들어졌습니다. 이렇듯 기존 방식과는 다른 방식을 사용해야 하는 거대한 데이터를 우리는 빅데이터라고 부르게 되는데요. 데이터 엔지니어는 이러한 빅데이터 환경에서 데이터 인프라를 구축하고 관리하는 데에 특화된 직무이며 이러한 역할이 담당하는 업무는 기존 데이터 환경과 많은 기술적 차이를 가집니다. 이것이 바로 데이터 엔지니어라는 직무가 필요한 이유입니다.

 

 

 

데이터 엔지니어가 하는 일

데이터 엔지니어가 하는 업무 중 가장 핵심을 정리하면 다음과 같습니다. 데이터의 수집, 저장, 가공(ETL 또는 ELT)=&gt이 업무를 하나로 합쳐서 부르면 데이터 파이프라인을 구축 및 관리하는 것입니다. 데이터를 만들어내는 실제 서비스들에서 데이터를 수집하고,수집한 데이터를 전 처리한 후 저장에 필요한 형태로 가공한 뒤,안전한 목표 저장소에 저장하는 일련의 과정을 의미합니다.

 

일반적으로 데이터를 모아서 처리하는 배치 처리와 실시간으로 처리하는 스트리밍 처리가 있으며 각각의 처리 형태 혹은 파이프라인 단계마다 사용할 수 있는 기술 스택이 매우 다양합니다. 따라서 서비스의 특성을 잘 고려하여 적절한 기술을 선택하는 것이 중요하며 이는 데이터 엔지니어에게 가장 중요한 역량 중 하나입니다.

 

분석(+ 시각화)데이터 엔지니어는 자신이 관리하는 데이터가 결국 어떻게 쓰이는지 알고 필요한 데이터를 직접 분석할 수 있어야 합니다. 또한 데이터가 정상적으로 쌓이고 있는지 확인할 때에도 이러한 작업이 필요하다.이러한 일회성 분석도 반드시 필요하지만 데이터 분석가 혹은 조직원들이 원할 때 지표를 바로 볼 수 있도록 분석 시스템을 만들 수도 있습니다.

 

이 경우에는 적절한 시각화 툴에 대한 이해도 역시 필요합니다. 이렇게 두 가지로 크게 나누었지만 실제 업무에서는 사실 개발, 사업 등 조직을 가리지 않고 데이터를 활용하는 모든 직무와 끊임없이 소통해야 하며 종종 백엔드 엔지니어의 역할까지 함께 수행하기도 합니다.

 

 

 

 

반응형

댓글