머신러닝을 위한 대규모 데이터 플랫폼 구축

소개

"데이터는 머신러닝의 핵심입니다."

좋은 데이터 없이는 좋은 모델을 만들 수가 없지요. 거친 원석을 다듬어서 반짝이는 보석을 만들어내듯이 네이버 스케일의 데이터를 정제하고 가공하는 일, 그리고 그러한 일을 가능하게 하는 효율적인 파이프라인과 플랫폼을 만드는 일을 한다고 하면 어떤 생각이 떠오르시나요? 저희 조직에서 하고 있는 일을 몇가지 소개 드리자면,

  • ETL pipeline: 머신러닝 모델을 만들 때에는 원본 데이터를 그대로 활용하기보다는 다른 형태로 가공해서 사용하는 일이 흔합니다. 가공해야 하는 데이터의 양이 많기도 하고, 매 순간 계속해서 들어오는 데이터를 꾸준하게, 신뢰성 있게 처리하는 일이 매우 중요합니다.

  • Data catalog system: 조직의 규모가 커지다보면 데이터 사일로(silo) 현상이 일어나기 마련입니다. 이러한 비효율을 방지하고, 데이터의 존재 유무, 스키마, 연결 관계 등을 한 눈에 볼 수 있는 시스템을 갖추는 일을 하고 있습니다.

  • Data governance: 구성원 모두가 데이터를 안전하고 자유롭게 이용할 수 있도록 데이터 거버넌스 시스템을 구축하고 있습니다. 또한, 필요한 데이터를 얻기 위해 여러가지 사내 시스템을 탐험할 필요가 없도록 중앙화된 데이터 접근 인터페이스를 제공하여 구성원 모두가 편리하게 데이터를 이용할 수 있는 시스템을 구성합니다.

  • Feature store: 피처 엔지니어링과 모델링을 분리하여 각자의 전문 영역에 더 집중할 수 있도록 하고, 각 부분의 재사용성을 높이는 시스템을 구축합니다.

그 이외에도 구성원들이 데이터를 편리하게 이용할 수 있도록 지원하여 조직 전체의 효율성과 생산성을 높이는 일이 있다면, 그것이 저희 조직의 일이라고 생각하시면 됩니다. 이러한 일을 하는 과정에서 생기는 여러가지 문제들을 해결하고, 같이 성장해 나갈 멋진 동료를 찾고 있습니다.

역할

  • CLOVA에서 쓰이는 여러 데이터들의 파이프라인을 개선하고 운영 합니다.

  • ML을 위한 데이터 허브를 설계하고 개발하며 운영 합니다.

  • 데이터 거버넌스 시스템과 카탈로그 시스템을 개발하고 운영합니다.

자격 요건

  • Java, Python, Scala 중 적어도 한 가지 이상의 언어에 능숙하신 분

  • Hadoop Ecosystem 에 대한 기본적인 이해가 있는 분

  • 학력 무관

​우대사항

  • 대용량/분산 처리 환경(Hadoop, Hive, Kafka, Spark, Elasticsearch 등) 운영 및 개발 경험

  • 데이터 처리 관련 기술을 활용한 파이프라인/Worflow(Airflow, Atlas 등) 관리 이해

  • 오픈소스 기여 경험

  • 컴퓨터 과학 (Computer Science), 컴퓨터 공학 (Computer Engineering) 및 관련 분야 전공

Last updated