기술 직무 안내
  • Readme
  • NAVER Tech Career (Eng)
  • 서비스 소개
    • 검색, 추천 서비스
      • NLP
        • 텍스트 분석 기술
        • 언어 모델
        • Question Answering 기술
      • Data&Analytics
      • 인텐트 검색
      • 웹검색
      • Vision
      • 지식스니펫
      • 쇼핑검색&추천
        • Product Search & Ranking
        • Product Recommendation (AiTEMS)
        • Catalog Matching & Enrichment
      • AiRSearch
        • 글로벌 추천 모델링(AI/ML)
        • 통합 개인화 플랫폼(BE/DE)
        • 통합 검색 모델링(AI/ML)
      • AI Data Platform
      • 지식베이스
      • 클라우드검색솔루션 프로젝트
      • Server Platform
      • Engine & Solution
        • 대용량 분산 검색 엔진 개발
          • 고효율 고성능 색인-검색 컴포넌트 개발
          • 검색 엔진 분산 아키텍쳐 개발
          • 대규모 검색 클러스터 운영 도구 개발
        • 고성능 서버리스 플랫폼 개발
      • 지역검색&추천
        • Local Search
        • AirSPACE
      • 신뢰성 플랫폼
        • Search FE
        • Search Portal
        • Search SRE
    • 공통 플랫폼 기술 개발
      • Next 페이 프로젝트 서버 개발
    • 광고 플랫폼, 여행 검색 외
      • Front-end
      • Back-end
      • AI/ML
      • Data
      • Android
      • iOS
    • 네이버 쇼핑
      • 스마트스토어
      • 버티컬쇼핑서비스
      • 쇼핑검색서비스
      • 라이브커머스
    • 뉴스, 연예, 스포츠 외
      • Back-end
      • ML/Data engineering
    • 블로그, 지식iN/eXpert 외
      • iOS
      • Android
      • Front-end
      • Back-end
      • Data
    • 회원&인증플랫폼
      • iOS
      • Android
      • Back-end
      • Front-end
      • Data
    • 🧑‍🚀Community CIC
      • Global Community Dev FrontEnd
      • Global Community Dev BackEnd
      • Open Community Dev FrontEnd
      • Open Community Dev BackEnd
      • Android
      • iOS
      • Business Data
      • Service Data
      • Core Backend
      • Naver Game Server Dev
      • Naver Game Client Dev
    • 밴드 Cell
      • 밴드 Cell Web
    • NAVER CLOUD AI
      • NAVER AI LAB
      • 음성인식 (Speech Recognition)
      • 음성합성 및 Avatar 생성 기술 연구
      • 클로바 Vision/NLP 연구 개발
      • CLOVA Vision Kit
        • Face AI
        • Video AI
        • Avatar AI
        • Edge AI
        • Edge Solution AI
        • Data Engineer
      • 초대규모 멀티모달 & 시계열 & 쇼핑 모델링 기술 연구개발
      • CLOVA 언어 모델 연구 및 대화 시스템 개발
      • HCI X AI
      • AI 경량화 및 최적화
      • ML 연구 플랫폼 NSML 개발
      • AI/ML 서비스 & 플랫폼 개발
      • AutoML을 이용한 모델 자동 훈련 시스템 개발
      • HyperCLOVA Engineering
      • Document Intelligence
      • 머신러닝을 위한 대규모 데이터 플랫폼 구축
      • 초대규모 AI 모델 학습 / 서빙 시스템 구축 및 운영
      • DATA AI
      • AI Assistant 대화/검색시스템 연구 개발
      • CLOVA Note
        • CLOVA Note App (iOS)
    • ETECH
      • Front-end
      • Back-end
      • Android
      • iOS
      • Data
      • Graphics
    • Maps
      • iOS
      • Android
      • Back-End
    • Music
      • Music iOS
      • Music Android
      • Music Server
      • Music Platform
        • META STORE
        • OPEN-API
        • PARTY ROOM
        • NAVER SEARCH
        • DATA
      • Music AI
      • Music Quality Engineering
      • LINE MUSIC iOS
      • LINE MUSIC Android
      • LINE MUSIC Server
    • Papago
      • Front-end
      • Back-end
      • AI/ML
      • Android
      • iOS
    • PLACE
      • iOS
    • Whale
      • Browser
      • Web Engine
      • Whale OS
      • Front-end
      • Back-end
      • Whale Android
      • Whale iOS
    • Security
      • Service Security
      • Security Development
    • 네이버앱플랫폼Tech
      • Naver App
        • Android
        • iOS
      • PWE앱
        • Android
        • iOS
      • 스마트보드앱
    • WORKS MOBILE
      • iOS
      • Android
  • SmartStudio
    • Front-end
    • Back-end
    • Android
    • iOS
Powered by GitBook
On this page
  • AI Data Platform은
  • 구체적으로 하는 일은
  • 주요 기술
  • 참고자료
  • 컨퍼런스 참여
  • 기술 블로그
  • 조직문화
  • 오픈소스 기여
  1. 서비스 소개
  2. 검색, 추천 서비스

AI Data Platform

검색플랫폼의 AI Data Platform을 소개합니다.

Previous통합 검색 모델링(AI/ML)Next지식베이스

Last updated 1 day ago

AI Data Platform은

Data Platform은 NAVER의 방대한 데이터를 한 곳에 모아 효율적으로 활용할 수 있도록 데이터를 수집, 저장, 처리 및 분석할 수 있는 통합 플랫폼을 구축하여 NAVER 구성원에게 제공합니다. 네이버 내에서 AWS, GCP, Azure, Databricks, Snowflake등과 같은 역할을 수행합니다.

기능적으로 Data Platform은

  • 데이터 통합 및 표준화를 통해 클라우드 기반 데이터 솔루션을 제공하고,

  • 데이터 거버넌스를 강화하여 신뢰할 수 있는 데이터 활용 환경을 조성합니다.

  • 메타데이터 관리와 자동화된 데이터 수집 시스템을 통해 대규모 데이터 자산을 체계적으로 관리하며, 비즈니스 가치를 극대화하는 데 기여합니다.

  • 검색과 AI에 필요한 콘텐츠를 확보하고 활용하기 쉽도록 관리하는 업무도 수행합니다.

  • 콘텐츠 관리를 통해 사내 담당자들이 필요한 콘텐츠를 쉽게 찾고 활용할 수 있도록 지원합니다.

구체적으로 하는 일은


  • 저장

    • 조단위의 데이터 속에서 원하는 데이터를 빠르고, 쉽게 접근할 수 있도록 데이터를 저장합니다.

    • 사용자 로그, 서비스의 컨텐츠, 웹수집 문서, 제휴 데이터등 다양한 종류와 특성을 가지는 데이터를 최적화된 형태로 저장합니다.

  • 처리

    • 급격하게 증가하는 트래픽의 데이터를 지연, 분산, 밸런싱등의 기법으로 사용자의 니즈에 맞게 처리되도록 합니다.

    • 빠른 접근, 분산 처리등 다양한 사용 목적에 맞도록 데이터를 미리 가공해두어 비즈니스에 활력을 불어 넣습니다.

    • 운영 중인 시스템의 일부에서 장애가 발생하더라도 처리가 지연되거나 처리가 멈추지 않도록 시스템을 설계, 운영, 개발합니다.

  • 제휴데이터 ingestion

    • 데이터 수요를 파악하여 소싱, 계약, 법무 검토, 수급하는 일련의 과정을 프로세스화 하고 이에 맞춰 실제 DB를 수급합니다.

  • Web Crawl

    • 수 십억 규모의 다양한 문서를 수집하고 효과적으로 색인될 수 있도록 가공합니다.

    • 스팸 및 저품질 문서를 지능적으로 분류하고 검색을 위한 최적의 문서를 선별하여 색인합니다.

  • 콘텐츠 ETL / ELT

    • 대용량 데이터를 대규모 분산환경에서 스트리밍, 배치 방식으로 처리하여 검색 및 주요 서비스에서 활용할 수 있도록 가공합니다.

  • Data Governance

    • 데이터와 관련된 규정/법규를 실제로 데이터를 사용하는 환경에 사용/관리-프로세스로 구체화 합니다.

    • 데이터 사용/관리 - 프로세스를 데이터 플래폼의 기능으로 구현되도록 제안합니다.

    • 데이터 사용/관리 - 프로세스가 잘 준수되고 있는지 확인하고 보완하는 감사활동을 합니다.

주요 기술


  • 분산 데이터 저장 - HBase, Kafka, MongoDB, mysql, redis, Elasticsearch

  • 클라우드 & 분산 시스템 - K8S (서버 운영 포함), Spring Cloud, Yarn, Docker, Network server, 분산 환경 보안 전문가

  • 개발 언어 & 프레임워크 - Python, Java, Scala, Golang, C++, C / Kotlin, Javascript, Node.js, React (TypeScript 포함), Spring / huggingface transformer library, freemarker

  • 빅데이터 처리 & 분석 - Hadoop (Eco System 포함), Spark, Hive, Trino(Presto), Hudi, ELK (운영 포함), Logstash, Airflow, flink, ETL

  • 기타 - Linux, Jenkins, Git (기반의 코드리뷰), Webpack, headless browser

참고자료


컨퍼런스 참여

  • 로그 수집

  • AI

  • 연산/처리

  • 저장

  • 데이터 거버넌스

기술 블로그

조직문화

오픈소스 기여

  • 연산/처리

  • 저장

  • AI

  • 그외 다수

[Deview 2017]

[Deview 2019]

[Deview 2017]

[Deview 2018]

[Deview 2019]

[Deview 2020]

[Deview 2021]

[Deview 2021]

[Dan24]

[Deview 2018]

[Deview 2019]

[Deview 2019]

[Deview 2020]

[Deview 2021]

[Deview 2017]

[Deview 2019]

[Deview 2021]

[Dan24]

[Deview 2021]

[Naver D2]

[Naver D2]

[Naver D2]

[Naver D2]

:: 본 직무에 관심있다면? 아래 NDTI 간단 이력서를 남겨주세요!

✍️
백억 개의 로그를 모아 검색하고 분석하고 학습도 시켜보자: 로기스
네이버 로그를 지탱하는 힘
빅데이터를 위한 분산 딥러닝 플랫폼 만들기
Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
외산 클라우드 없이 AI 플랫폼 제공하기: features, training, serving, and AI Suite
손쉽게 ML 라이프사이클을 다룰 수 있는 MLOps
AiSuite : Kubeflow를 통해 더 나은 AI 모델 서빙과 MLOps 실현하기
대규모 자연어처리 모델 서빙 경험기
AI 플랫폼에 딱 맞는 STOAGE : AISUITE에 JUICEFS 적용기
C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
대용량 멀티테넌트 시큐어 하둡 클러스터를 시행착오 없이 만들기
대규모 클러스터 모니터링 도전기: 모니터링, 어디까지 알아보고 오셨어요? Cluster level 부터 User level까지
대용량 멀티테넌트 시큐어 하둡 클러스터 운영 경험기
초대용량 멀티테넌트 시큐어 하둡 클러스터 성장통 경험기
HBase 기반 검색 데이터 저장소
네이버 로그를 지탱하는 힘
네이버 최대의 데이터 저장소 운영기 (HBase Locality기반 운영기)
실전에서 레벨업! HBASE 디스크 읽기 성능 개선기
AIDA Project : 전사 통합 데이터 거버넌스와 권한 관리
멀티테넌트 Hadoop 클러스터 운영 경험기
딥러닝 분산 플랫폼, C3DL
KafkaProducer Client Internals
KafkaConsumer Client Internals
[네피셜] 건초 더미에서 바늘 찾게 해주는, 그런 개발자 이야기
[네피셜] “이거… 제가 새로 만들어봐도 돼요?”라고 물어 본 주니어 개발자가 들은 대답
[네피셜] 해커톤 출신 네이버 검색 개발자가 생각하는, 냉장고와 네이버 검색 저장소
YARN-8693 Add signalToContainer REST API for RMWebServices
YARN-8761 Service AM support for decommissioning component instances
YARN-9197 NPE in service AM when failed to launch container
YARN-9307 node_partitions constraint does not work
YARN-9521 RM failed to start due to system services
YARN-9583 Failed job which is submitted unknown queue is showed all users
YARN-9633 Support doas parameter at rest api of yarn-service
YARN-9647 Docker launch fails when local-dirs or log-dirs is unhealthy.
YARN-9691 canceling upgrade does not work if upgrade failed container is existing
YARN-9703 Failed to cancel yarn service upgrade when canceling multiple times
YARN-9719 Failed to restart yarn-service if it doesn’t exist in RM
YARN-9731 In ATS v1.5, all jobs are visible to all users without view-acl
YARN-9790 Failed to set default-application-lifetime if maximum-application-lifetime is less than or equal to zero
YARN-9905 yarn-service is failed to setup application log if app-log-dir is not default-fs
YARN-9921 Issue in PlacementConstraint when YARN Service AM retries allocation on component failure.
YARN-9953 YARN Service dependency should be configurable for each app
YARN-9837 YARN Service fails to fetch status for Stopped apps with bigger spec files
YARN-9986 signalToContainer REST API does not work even if requested by the app owner
YARN-10021 NPE in YARN Registry DNS when wrong DNS message is incoming
YARN-10119 Cannot reset the AM failure count for YARN Service
YARN-10034 Allocation tags are not removed when node decommission
YARN-10196 destroying app leaks zookeeper connection
YARN-10184 NPE happens in NMClient when reinitializeContainer
YARN-10203 Stuck in express_upgrading if there is any component which has no instance
YARN-10206 Service stuck in the STARTED state when it has a component having no instance
YARN-10262 Support application ACLs for YARN Service
YARN-10267 Add description, version as allocationTags for YARN Service
YARN-10305 Lost system-credentials when restarting RM
HDFS-14434 webhdfs that connect secure hdfs should not use user.name parameter
HADOOP-16441 if use -Dbundle.openssl=true, bundled with unnecessary libk5crypto.*
HIVE-22126 hive-exec packaging should shade guava
HIVE-23153 deregister from zookeeper is not properly worked on kerberized environment
HIVE-24590 Operation Logging still leaks the log4j Appenders
HIVE-23164 Server is not properly terminated because of non-daemon threads
TEZ-4188 Link to NodeManager Logs of Home and DAG details doesn't consider yarnProtocol
TEZ-4205 Support RM delegation token
HIVE-23954 count(*) with count(distinct) gives wrong results with hive.optimize.countdistinct=true
HIVE-23458 Introduce unified thread pool for scheduled jobs
HIVE-24713 HS2 never shut down after reconnecting to Zookeeper
HIVE-24948 Enhancing performance of OrcInputFormat.getSplits with bucket pruning
HDFS-12204 Dfsclient Do not close file descriptor when using shortcircuit
HBASE-16299 Update REST API scanner with ability to do reverse scan
HBASE-16326 CellModel / RowModel should override 'equals', 'hashCode' and 'toString'
HBASE-23561 Look up of Region in Master by encoded region name is O(n)
HBASE-24130 rat plugin complains about having an unlicensed file.
HBASE-24348 CloseChecker should think Pressure Aware Throughput Controller
HBASE-23968 Periodically check whether a system stop is requested in compaction by time.
HBASE-24652 master-status UI, make date type fields sortable
HBASE-26895 on hbase shell, 'delete/deleteall' for a columnfamily is not working
HBASE-26901 delete with null columnQualifier occurs NullPointerException when NewVersionBehavior is on
HBASE-27219 Change JONI encoding in RegexStringComparator
HBASE-28563 Closing ZooKeeper in ZKMainServer
https://github.com/kubeflow/manifests/pull/1877
https://github.com/kubeflow/pipelines/pull/5293
https://github.com/kubeflow/pipelines/pull/5552
https://github.com/kubeflow/kfserving/pull/1361
https://github.com/NVIDIA/deepops/pull/893
LogoNDTI로 알아보는 나의 맞춤 채용 제안