기술 직무 안내
  • Readme
  • NAVER Tech Career (Eng)
  • 서비스 소개
    • 검색, 추천 서비스
      • NLP
        • 텍스트 분석 기술
        • 언어 모델
        • Question Answering 기술
      • Data&Analytics
      • 인텐트 검색
      • 웹검색
      • Vision
      • 지식스니펫
      • 쇼핑검색&추천
        • Product Search & Ranking
        • Product Recommendation (AiTEMS)
        • Catalog Matching & Enrichment
      • AiRSearch
        • 글로벌 추천 모델링(AI/ML)
        • 통합 개인화 플랫폼(BE/DE)
        • 통합 검색 모델링(AI/ML)
      • AI Data Platform
      • 지식베이스
      • 클라우드검색솔루션 프로젝트
      • Server Platform
      • Engine & Solution
        • 대용량 분산 검색 엔진 개발
          • 고효율 고성능 색인-검색 컴포넌트 개발
          • 검색 엔진 분산 아키텍쳐 개발
          • 대규모 검색 클러스터 운영 도구 개발
        • 고성능 서버리스 플랫폼 개발
      • 지역검색&추천
        • Local Search
        • AirSPACE
      • 신뢰성 플랫폼
        • Search FE
        • Search Portal
        • Search SRE
    • 공통 플랫폼 기술 개발
      • Next 페이 프로젝트 서버 개발
    • 광고 플랫폼, 여행 검색 외
      • Front-end
      • Back-end
      • AI/ML
      • Data
      • Android
      • iOS
    • 네이버 쇼핑
      • 스마트스토어
      • 버티컬쇼핑서비스
      • 쇼핑검색서비스
      • 라이브커머스
    • 뉴스, 연예, 스포츠 외
      • Back-end
      • ML/Data engineering
    • 블로그, 지식iN/eXpert 외
      • iOS
      • Android
      • Front-end
      • Back-end
      • Data
    • 회원&인증플랫폼
      • iOS
      • Android
      • Back-end
      • Front-end
      • Data
    • 🧑‍🚀Community CIC
      • Global Community Dev FrontEnd
      • Global Community Dev BackEnd
      • Open Community Dev FrontEnd
      • Open Community Dev BackEnd
      • Android
      • iOS
      • Business Data
      • Service Data
      • Core Backend
      • Naver Game Server Dev
      • Naver Game Client Dev
    • 밴드 Cell
      • 밴드 Cell Web
    • NAVER CLOUD AI
      • NAVER AI LAB
      • 음성인식 (Speech Recognition)
      • 음성합성 및 Avatar 생성 기술 연구
      • 클로바 Vision/NLP 연구 개발
      • CLOVA Vision Kit
        • Face AI
        • Video AI
        • Avatar AI
        • Edge AI
        • Edge Solution AI
        • Data Engineer
      • 초대규모 멀티모달 & 시계열 & 쇼핑 모델링 기술 연구개발
      • CLOVA 언어 모델 연구 및 대화 시스템 개발
      • HCI X AI
      • AI 경량화 및 최적화
      • ML 연구 플랫폼 NSML 개발
      • AI/ML 서비스 & 플랫폼 개발
      • AutoML을 이용한 모델 자동 훈련 시스템 개발
      • HyperCLOVA Engineering
      • Document Intelligence
      • 머신러닝을 위한 대규모 데이터 플랫폼 구축
      • 초대규모 AI 모델 학습 / 서빙 시스템 구축 및 운영
      • DATA AI
      • AI Assistant 대화/검색시스템 연구 개발
      • CLOVA Note
        • CLOVA Note App (iOS)
    • ETECH
      • Front-end
      • Back-end
      • Android
      • iOS
      • Data
      • Graphics
    • Maps
      • iOS
      • Android
      • Back-End
    • Music
      • Music iOS
      • Music Android
      • Music Server
      • Music Platform
        • META STORE
        • OPEN-API
        • PARTY ROOM
        • NAVER SEARCH
        • DATA
      • Music AI
      • Music Quality Engineering
      • LINE MUSIC iOS
      • LINE MUSIC Android
      • LINE MUSIC Server
    • Papago
      • Front-end
      • Back-end
      • AI/ML
      • Android
      • iOS
    • PLACE
      • iOS
    • Whale
      • Browser
      • Web Engine
      • Whale OS
      • Front-end
      • Back-end
      • Whale Android
      • Whale iOS
    • Security
      • Service Security
      • Security Development
    • 네이버앱플랫폼Tech
      • Naver App
        • Android
        • iOS
      • PWE앱
        • Android
        • iOS
      • 스마트보드앱
    • WORKS MOBILE
      • iOS
      • Android
  • SmartStudio
    • Front-end
    • Back-end
    • Android
    • iOS
Powered by GitBook
On this page
  • 소개
  • 역할
  • 자격 요건
  • ​우대사항
  1. 서비스 소개
  2. NAVER CLOUD AI

머신러닝을 위한 대규모 데이터 플랫폼 구축

소개

"데이터는 머신러닝의 핵심입니다."

좋은 데이터 없이는 좋은 모델을 만들 수가 없지요. 거친 원석을 다듬어서 반짝이는 보석을 만들어내듯이 네이버 스케일의 데이터를 정제하고 가공하는 일, 그리고 그러한 일을 가능하게 하는 효율적인 파이프라인과 플랫폼을 만드는 일을 한다고 하면 어떤 생각이 떠오르시나요? 저희 조직에서 하고 있는 일을 몇가지 소개 드리자면,

  • ETL pipeline: 머신러닝 모델을 만들 때에는 원본 데이터를 그대로 활용하기보다는 다른 형태로 가공해서 사용하는 일이 흔합니다. 가공해야 하는 데이터의 양이 많기도 하고, 매 순간 계속해서 들어오는 데이터를 꾸준하게, 신뢰성 있게 처리하는 일이 매우 중요합니다.

  • Data catalog system: 조직의 규모가 커지다보면 데이터 사일로(silo) 현상이 일어나기 마련입니다. 이러한 비효율을 방지하고, 데이터의 존재 유무, 스키마, 연결 관계 등을 한 눈에 볼 수 있는 시스템을 갖추는 일을 하고 있습니다.

  • Data governance: 구성원 모두가 데이터를 안전하고 자유롭게 이용할 수 있도록 데이터 거버넌스 시스템을 구축하고 있습니다. 또한, 필요한 데이터를 얻기 위해 여러가지 사내 시스템을 탐험할 필요가 없도록 중앙화된 데이터 접근 인터페이스를 제공하여 구성원 모두가 편리하게 데이터를 이용할 수 있는 시스템을 구성합니다.

  • Feature store: 피처 엔지니어링과 모델링을 분리하여 각자의 전문 영역에 더 집중할 수 있도록 하고, 각 부분의 재사용성을 높이는 시스템을 구축합니다.

그 이외에도 구성원들이 데이터를 편리하게 이용할 수 있도록 지원하여 조직 전체의 효율성과 생산성을 높이는 일이 있다면, 그것이 저희 조직의 일이라고 생각하시면 됩니다. 이러한 일을 하는 과정에서 생기는 여러가지 문제들을 해결하고, 같이 성장해 나갈 멋진 동료를 찾고 있습니다.

역할

  • CLOVA에서 쓰이는 여러 데이터들의 파이프라인을 개선하고 운영 합니다.

  • ML을 위한 데이터 허브를 설계하고 개발하며 운영 합니다.

  • 데이터 거버넌스 시스템과 카탈로그 시스템을 개발하고 운영합니다.

자격 요건

  • Java, Python, Scala 중 적어도 한 가지 이상의 언어에 능숙하신 분

  • Hadoop Ecosystem 에 대한 기본적인 이해가 있는 분

  • 학력 무관

​우대사항

  • 대용량/분산 처리 환경(Hadoop, Hive, Kafka, Spark, Elasticsearch 등) 운영 및 개발 경험

  • 데이터 처리 관련 기술을 활용한 파이프라인/Worflow(Airflow, Atlas 등) 관리 이해

  • 오픈소스 기여 경험

  • 컴퓨터 과학 (Computer Science), 컴퓨터 공학 (Computer Engineering) 및 관련 분야 전공

PreviousDocument IntelligenceNext초대규모 AI 모델 학습 / 서빙 시스템 구축 및 운영

Last updated 3 years ago