
국제 식품 정보 스타트업
멀티모달 AI를 통한 수백 개 웹사이트 크롤링 자동화
90%
크롤러 유지보수 시간 감소
10x
데이터 수집 속도 향상

국제 식품 정보 스타트업
90%
크롤러 유지보수 시간 감소
10x
데이터 수집 속도 향상
이 기업은 전 세계 식품 관련 정보를 수집·정제해 고객사에 제공하는 식품 데이터 스타트업입니다. 제품명, 브랜드, 가격, 성분, 영양정보, 원산지, 인증 정보 같은 핵심 데이터를 여러 국가의 제조사 사이트, 유통사몰, 리테일 플랫폼, 전문 정보 포털에서 지속적으로 수집해 하나의 데이터 상품으로 가공하고 있었습니다.
고객사가 기대한 가치는 단순한 데이터 보유량이 아니라, 얼마나 많은 출처를 빠르게 연결하고 얼마나 최신 상태를 안정적으로 유지하느냐에 있었습니다. 특히 국가별 식품 라벨 표기 방식과 카테고리 체계가 다르기 때문에, 신규 사이트를 얼마나 빨리 붙일 수 있는지가 곧 사업 확장 속도와 직결됐습니다.
문제는 기존 운영 방식이 사이트별 전용 크롤러를 하나씩 만드는 구조였다는 점입니다. 출처가 늘어날수록 코드베이스와 예외처리도 함께 늘어났고, 한두 곳의 UI 변경만 발생해도 데이터 파이프라인 전체를 다시 점검해야 하는 비효율이 누적되고 있었습니다.
가장 큰 병목은 데이터가 부족한 것이 아니라, 새로운 사이트 구조가 추가되거나 기존 페이지가 개편될 때마다 사람이 직접 셀렉터를 다시 찾고 예외 로직을 추가해야 한다는 점이었습니다. 사이트 수가 수백 개로 늘어나자 작은 화면 변경도 누적 장애로 이어졌고, 운영팀은 신규 소스 확장보다 유지보수 대응에 더 많은 시간을 쓰게 됐습니다.
대상 페이지의 구조도 제각각이었습니다. 어떤 곳은 서버 렌더링 HTML로 정보를 노출했지만, 다른 곳은 자바스크립트 렌더링, 탭 UI, 무한 스크롤, 모달, 지역별 필터, 더보기 버튼 뒤에 데이터를 숨겨두고 있었습니다. 성분표나 영양정보가 텍스트가 아니라 이미지 형태 표로 제공되는 경우도 있어, 단순 DOM 파싱만으로는 필요한 필드를 안정적으로 회수하기 어려웠습니다.
또한 같은 의미의 데이터도 사이트마다 표현이 달랐습니다. 예를 들어 원산지, 알레르기 정보, 인증 마크, 용량 표기가 제각각이어서 단순 추출만으로는 끝나지 않았고, 이후 검색·분석에 활용 가능한 수준으로 표준화하는 후처리 설계까지 필요했습니다.
결국 고객사는 '사이트별 크롤러를 더 빨리 만드는 것'이 아니라, 낯선 웹 구조를 스스로 해석하고 공통 데이터 구조로 수렴시킬 수 있는 새로운 수집 방식이 필요했습니다.
프로젝트 팀은 사이트마다 별도 크롤러를 계속 추가하는 대신, 멀티모달 AI 기반의 적응형 크롤링 시스템을 새로 설계했습니다. 핵심 아이디어는 AI가 웹페이지의 DOM 구조와 실제 렌더링 화면을 함께 해석해, 현재 페이지가 목록인지 상세인지, 어떤 버튼을 눌러야 다음 정보가 열리는지, 어떤 영역이 제품 데이터인지 스스로 판단하도록 만드는 것이었습니다.
먼저 주요 웹사이트 유형을 제조사형, 이커머스형, 카탈로그형, 정보 포털형으로 나누고 제품명, 브랜드, 가격, 성분, 영양정보, 원산지, 인증 정보, 패키징 단위 등 반드시 확보해야 하는 필드를 표준 스키마로 정의했습니다. 이를 통해 사이트별 표현 방식이 달라도 최종 출력은 항상 동일한 구조를 따르도록 만들었고, 이후 적재·검색·분석 파이프라인도 일관되게 연결할 수 있게 했습니다.
실제 수집 단계에는 Browser Automation 계층을 결합했습니다. 단순히 HTML을 읽는 수준이 아니라, 실제 사용자처럼 상세페이지에 진입하고 탭을 전환하며 더보기 버튼을 누르고 필터를 적용하는 방식으로 페이지를 탐색했습니다. 덕분에 정적 크롤러로는 놓치기 쉬운 동적 콘텐츠와 지연 로딩 구간까지 회수할 수 있었고, 국가별 사이트 특유의 탐색 흐름에도 유연하게 대응할 수 있었습니다.
여기에 멀티모달 추론을 더해 화면상 의미 단위를 읽도록 했습니다. 예를 들어 영양정보가 표 이미지로 제공되거나, 성분 정보가 접힌 아코디언 내부에 숨겨져 있어도 화면 맥락과 DOM 힌트를 함께 사용해 필요한 필드를 찾아냈습니다. 단순 규칙 매칭이 아니라 '이 페이지에서 식품 상세 정보가 어디에 모여 있는가'를 판단하도록 설계한 점이 기존 크롤러와 가장 큰 차이였습니다.
수집 이후에는 Structured Extraction Layer를 통해 필드별 검증 규칙, 단위 정규화, 값 누락 탐지, 신뢰도 점수 계산을 수행했습니다. 예를 들어 중량 단위를 g와 ml로 통일하고, 인증 정보는 사전 정의된 카테고리로 매핑하며, 동일 제품의 중복 노출 여부도 후처리에서 걸러냈습니다.
초기 운영 단계에는 Human-in-the-loop QA 루프도 함께 두었습니다. 사람이 추출 결과를 검수하면서 어떤 유형의 사이트에서 브랜드명과 제조사명이 혼동되는지, 어떤 레이아웃에서 원산지 필드 누락이 자주 발생하는지 패턴을 축적했고, 이를 기반으로 프롬프트, 액션 전략, 후처리 규칙을 빠르게 보정했습니다. 그 결과 시스템은 단순 PoC가 아니라 실제 운영 가능한 적응형 수집 파이프라인으로 고도화됐습니다.
Multimodal LLM
화면 스크린샷과 DOM 정보를 함께 해석해, 현재 페이지 구조를 이해하고 필요한 데이터 위치와 다음 탐색 액션을 판단하는 핵심 추론 엔진으로 활용했습니다.
Browser Automation
클릭, 스크롤, 탭 전환, 상세페이지 이동, 페이지네이션 등 실제 사용자와 유사한 웹 상호작용을 자동 수행해 동적 콘텐츠 수집 범위를 넓혔습니다.
Structured Extraction Layer
추출된 정보를 표준 스키마에 맞게 구조화하고, 필드별 검증 규칙과 단위 정규화를 통해 데이터 품질을 안정화했습니다.
Workflow Orchestration
주기 실행, 실패 재처리, 로그 관리, 데이터 적재 연계를 자동화해 수백 개 소스를 운영하는 환경에서도 안정적으로 대응했습니다.
QA Feedback Loop
사람 검수 결과를 프롬프트와 후처리 규칙 개선에 반영해, 사이트 유형별 오류를 빠르게 줄이는 운영형 학습 루프를 구축했습니다.
“수백 개 사이트를 각각 예외처리로 관리하는 방식은 결국 운영 한계에 부딪힙니다. 이 프로젝트의 핵심은 웹페이지를 규칙이 아니라 맥락으로 이해하게 만드는 것이었고, 멀티모달 AI가 그 전환점을 만들어주었습니다.”
빅시프트 프로젝트팀 · 멀티모달 크롤링 프로젝트 리드
결과적으로 고객사는 사이트별 예외처리에 묶여 있던 수집 운영을 확장 가능한 데이터 파이프라인으로 전환했고, 신규 소스 연결 속도와 운영 안정성을 동시에 확보했습니다.
기존 대비 크롤러 유지보수 공수를 약 90% 절감했습니다. 반복적으로 발생하던 셀렉터 수정, 예외처리, 긴급 장애 대응 부담이 크게 줄어들면서 엔지니어링 리소스를 신규 소스 확대와 품질 개선에 더 집중할 수 있게 됐습니다.
신규 웹사이트 검증과 연결 속도가 약 3배 빨라졌고, 전체 데이터 수집 처리량은 기존 대비 10배까지 확대됐습니다. 사이트별 전용 코드를 처음부터 새로 짜는 대신, 적응형 추출 구조를 기반으로 빠르게 테스트하고 운영 환경에 편입할 수 있게 된 결과입니다.
경미한 화면 개편이나 레이아웃 이동이 발생해도 수집 실패율이 크게 낮아졌습니다. DOM만 보는 방식이 아니라 시각적 맥락까지 함께 활용함으로써, 기존 규칙 기반 크롤러보다 훨씬 높은 복원력과 장애 대응 속도를 확보했습니다.
여러 출처에 흩어져 있던 식품 정보를 일관된 구조로 통합할 수 있게 되면서, 이후 검색, 분석, 모니터링, 추천, 규제 대응 리서치 등 상위 서비스로 확장 가능한 데이터 기반도 함께 마련했습니다.
기획 단계부터 데이터 구조, 모델 선택, 제품화 범위까지 함께 설계합니다.
유사한 문제를 다른 방식으로 해결한 프로젝트도 함께 보실 수 있습니다.
관광 관련 공공기관
관광 관련 공공데이터를 자연어 질문만으로 조회할 수 있도록 온프레미스 NL2SQL 시스템을 구축해, 현업 부서의 데이터 접근 장벽을 낮추고 질의 작성 시간을 80% 단축한 프로젝트입니다.
케이스 스터디 보기대학교 산학협력단
대학 산학협력단의 대용량 NAS 문서를 RAG로 통합해 논문·특허·기술소개서 탐색과 기업 매칭 후보 추천을 연결하고, 기술이전 검토 속도를 크게 높인 프로젝트입니다.
케이스 스터디 보기