글로벌 Big4 컨설팅사 D사는 한국 클라이언트를 위한 대규모 소셜 리스닝 프로젝트를 수주했습니다. 미국, 영국, 한국 등 9개국의 X(트위터), Reddit, 인스타그램 등 7개 소셜 채널에서 과거 2년치 데이터를 수집하고, 향후 2년간 지속적으로 모니터링해야 하는 프로젝트였습니다.
문제는 내부에 이런 규모의 소셜 데이터를 수집할 인프라가 전혀 없었다는 것입니다. 리서처 3명을 추가 투입해 수동으로 데이터를 확보하려 했지만, 국가별 필터링도 안 되고 과거 데이터 확보는 사실상 불가능한 상황이었습니다. 프로젝트 킥오프까지 남은 시간은 2주. D사 프로젝트 매니저는 "데이터를 못 모으면 프로젝트 자체가 무산된다"는 위기감 속에서 해시스크래퍼에 연락했습니다.
해결 과제
-
9개국 × 7개 채널의 소셜 데이터를 수동으로 수집하는 것은 물리적으로 불가능
-
과거 2년치 데이터를 확보할 방법이 없어 리서치 일정 지연
-
국가별 필터링이 불가능해 데이터 정제에만 리서처 3명 추가 투입
도입 과정 (7일간)
1
1일차: 요구사항 분석
9개국 × 7개 채널 수집 범위 정의, API 연동 방식 설계
2
2-5일차: 크롤러 개발 및 과거 데이터 수집
X, Reddit 등 7개 채널 크롤러 구축, 2024~2025 과거 데이터 일괄 수집
6-7일차: 데이터 검증 및 API 연동
국가별 필터링 테스트, API 연동 완료, 주간/월간 자동 수집 스케줄 설정
도입 후 결과
프로젝트 효율
-
리서처 수동 작업 100% 자동화
-
데이터 확보 기간 3개월 → 7일로 단축
데이터 품질
-
9개국 데이터 국가별 자동 분류
-
API로 자사 분석 시스템에 직접 연동
"9개국 소셜 데이터를 직접 수집하려면 몇 달은 걸렸을 겁니다. 해시스크래퍼 덕분에 프로젝트 시작 1주일 만에 과거 2년치 데이터까지 확보할 수 있었어요."
D
D사 프로젝트 매니저
글로벌 컨설팅사 · 데이터 리서치팀