Catalog Matching & Enrichment
Last updated
Last updated
Catalog Matching & Enrichment 에서는 네이버, 라인, 글로벌 쇼핑 검색 상품을 분석하기 위한 AI 기술 연구와 대규모 분산 처리 클러스터링 플랫폼을 개발하고 있습니다.
상품의 이름과 설명, 그 외의 다양한 속성으로 구성된 텍스트와 이미지로부터 중요 정보를 추출하고 추출된 정보들을 토대로 유사 상품간의 연관성을 분석하여 클러스터링 하는 것이 주요 업무입니다.
많은 연산량을 필요로 하는 머신러닝/AI 기술을 더욱 확장하기 위해 모델 자체의 개선 뿐만 아니라, 대규모 데이터 처리 플랫폼의 성능을 최대로 끌어내는 백엔드 기술 개발을 병행하고 있습니다.
현재는 동일 상품을 넘어, 유사 상품 간의 속성 별 세부 비교가 가능한 클러스터링을 위해 연구를 확장하고 있습니다.
상품의 정보를 분석하고 고유의 속성과 특징을 추출하기 위해 ML/AI 기술을 사용하고 있습니다. 매일 새롭게 등록되고 있는 수 많은 상품 제목에 포함 된 상품의 이름이나 모델 번호, 브랜드 정보 들을 분석합니다.
'개수', '용량' 등 상품의 가격에 영향을 미치는 구매 조건 정보를 추출하여 부족한 정보를 보완하기도 합니다.
더 정확하고 높은 품질의 클러스터링을 위해 상품 이미지 분석 기술이 사용되고 있습니다. 이미지 해시 추출, 지역 특징 분석 및 매칭, 그리고 Deep learning을 활용한 임베딩 기법 등이 있습니다.
최근에는 이미지 분석 기술을 확장하여, 상품에 부족한 정보를 '추론'하여 생성하는 기술에 힘을 쏟고 있습니다.
상품에서 추출된 정보들은 대규모 분산 시스템을 통해 클러스터링 작업을 거치게 됩니다. 수십억 건 이상의 상품을 다루고 있는 분산 클러스터링 시스템은 백엔드 시스템의 핵심 기술입니다.
Machine learning / Deep learning / Data mining
Computer vision / Image processing / Object recognition / Deep tagging
Information retrieval / extraction / classification
Natural language Processing / Query understanding
Distributed computing / Large-scale system design / Large-scale data processing