CWN(CHANGE WITH NEWS) - 웹 크롤링, 데이터 과학 분야의 필수 요소...왜?

  • 구름많음포항3.1℃
  • 흐림양산시4.4℃
  • 구름많음거창-2.3℃
  • 구름많음장수6.4℃
  • 구름많음안동0.2℃
  • 구름많음보령10.0℃
  • 구름많음보은0.8℃
  • 구름조금임실4.4℃
  • 흐림광주7.0℃
  • 흐림울산3.4℃
  • 흐림홍천-1.8℃
  • 구름많음울진2.9℃
  • 구름많음남원1.2℃
  • 맑음고산14.4℃
  • 흐림장흥1.4℃
  • 흐림진주1.4℃
  • 흐림제천-0.9℃
  • 흐림서산2.8℃
  • 흐림영주-0.4℃
  • 구름많음밀양1.9℃
  • 구름많음고창군9.3℃
  • 흐림고흥2.8℃
  • 흐림서청주0.5℃
  • 흐림청주1.7℃
  • 흐림인제-2.7℃
  • 구름많음보성군1.2℃
  • 흐림목포6.6℃
  • 흐림백령도1.7℃
  • 구름많음의령군0.0℃
  • 흐림대관령-1.8℃
  • 흐림수원1.5℃
  • 흐림충주0.2℃
  • 흐림강화0.1℃
  • 구름많음영광군6.2℃
  • 맑음성산13.7℃
  • 흐림태백3.2℃
  • 구름많음강릉2.8℃
  • 흐림홍성1.4℃
  • 흐림강진군2.4℃
  • 흐림원주-1.2℃
  • 구름많음대전1.7℃
  • 구름많음순창군0.7℃
  • 구름조금구미-1.2℃
  • 흐림이천-0.5℃
  • 흐림진도군9.8℃
  • 구름많음속초2.0℃
  • 구름많음상주0.8℃
  • 구름조금서귀포14.6℃
  • 구름많음남해3.4℃
  • 구름많음문경1.0℃
  • 흐림동두천-1.7℃
  • 흐림영월-1.6℃
  • 구름조금추풍령-1.5℃
  • 구름많음영덕1.2℃
  • 구름많음군산4.9℃
  • 흐림세종1.1℃
  • 흐림함양군-2.2℃
  • 흐림천안1.4℃
  • 구름조금의성-1.9℃
  • 흐림양평-0.4℃
  • 구름조금제주9.1℃
  • 흐림완도4.5℃
  • 구름많음전주6.8℃
  • 흐림북춘천-3.0℃
  • 흐림해남7.8℃
  • 구름많음울릉도4.2℃
  • 흐림부산6.9℃
  • 구름많음고창6.9℃
  • 흐림인천1.4℃
  • 구름많음대구0.0℃
  • 맑음청송군-3.2℃
  • 흐림동해3.6℃
  • 흐림파주-2.8℃
  • 흐림순천-0.5℃
  • 흐림춘천-2.5℃
  • 구름많음합천-0.6℃
  • 구름많음정읍8.3℃
  • 구름많음거제3.7℃
  • 구름많음광양시4.4℃
  • 구름많음창원4.6℃
  • 구름많음여수5.6℃
  • 흐림서울0.4℃
  • 흐림북부산4.2℃
  • 구름많음경주시-1.7℃
  • 구름많음부여1.8℃
  • 구름많음금산0.7℃
  • 흐림김해시5.2℃
  • 흐림철원-3.3℃
  • 구름많음영천-2.0℃
  • 흐림봉화-2.8℃
  • 흐림부안6.2℃
  • 구름많음북강릉0.0℃
  • 흐림산청-1.1℃
  • 흐림북창원6.0℃
  • 흐림정선군-2.9℃
  • 흐림흑산도11.8℃
  • 구름많음통영4.1℃
  • 2026.01.14 (수)

웹 크롤링, 데이터 과학 분야의 필수 요소...왜?

최정인 / 기사승인 : 2022-05-10 00:57:51
  • -
  • +
  • 인쇄

놀랍게도 오늘날 모든 인터넷 사용자는 데이터 생성자이기도 하다. 모든 인터넷 사용자의 온라인 행동은 데이터로 생성된다. 복수 연구 기관의 보고에 따르면 전 세계에는 4.6억 6,000만여 명의 활성 인터넷 사용자가 활동하고 있으며, 이들은 하루에 25경 바이트의 데이터를 생성한다.

데이터 과학 생태계는 이런 인터넷상의 데이터를 이용하여 다양한 비즈니스 문제에 대한 해결책을 제시하고자 한다. 웹 크롤링은 데이터 과학을 이용하기 위하여 데이터를 찾고 수집하는 데 핵심 역할을 한다. 많은 기업이 웹 크롤러를 통하여 고객, 제품에 대한 정보를 수집한다. 데이터 과학 프로젝트는 우선 해결하고자 하는 사업 문제를 정의하며, 그 이후 필요한 데이터를 수집하여 문제에 대한 해결책을 모색한다.

이 때문에 인도 IT 전문 잡지 애널리틱스 인사이트는 웹 크롤링의 중요성을 강조했다.

그런데 웹 크롤링은 정확히 무엇인가? 웹 크롤링은 자동화된 스크립트나 프로그램을 이용하여 웹사이트상의 정보를 인덱싱하는 과정이다. 이들 프로그램을 웹 크롤러, 스파이더, 스파이더봇, 크롤러 등 다양한 이름으로 부른다.

웹 크롤러는 처리한 웹 페이지를 복사하여 검색 엔진을 생성하여 이용자가 저장한 페이지의 정보를 더 효율적으로 찾고 탐색할 수 있게 한다. 크롤러의 목적은 웹페이지의 내용을 분석하여 저장하는 것이며, 이를 통해 이용자는 어떤 페이지의 정보이든 필요시 추출할 수 있다.

그렇다면, 웹 크롤링이 중요한 이유는 무엇일까?

2013년, IBM은 전 세계에 존재하는 데이터의 약 90%가 지난 2년간 생성된 것이며 2년마다 데이터 생성 속도는 2배가 된다고 발표하였다. 하지만 대다수 데이터는 구조화되어 있지 않으며 웹 크롤러는 구조화되지 않은 방대한 양의 데이터를 인덱싱하여 검색 엔진이 찾고자 하는 정보를 찾도록 지원한다.

구글 데이터로 입증된 바와 같이 웹 크롤러에 대한 관심은 2004년 이후로 꾸준히 감소하고 있다. 그러나 웹 크롤링은 데이터 과학 프로젝트에서 중요한 역할을 한다. 그렇다면, 데이터 과학 분야에서의 주된 웹 크롤링 활용 사례로 어떤 사례를 언급할 수 있을까?

가장 먼저 소셜 미디어 감성 데이터 분석을 언급할 수 있다. 많은 기업이 페이스북, 트위터, 인스타그램 등 다양한 소셜미디어 플랫폼에 게재되는 게시물과 댓글을 수집하는 데 웹 크롤링을 활용한다. 기업은 이를 바탕으로 브랜드 성과와 제품, 서비스 고객 만족도 및 반응 등을 파악한다.

주식 시장에서도 웹 크롤링을 주로 활용한다. 주식시장은 변동성으로 점철되어 있어 주가 예측이 굉장히 중요하다. 웹 크롤링을 이용하면 다양한 플랫폼에서 원하는 기간만큼의 주가 데이터를 수집할 수 있다. 수집된 데이터는 트렌트나 규칙을 발견하는 데 이용되거나 미래 주가 예측 모델을 만드는 데에도 활용될 수 있다. 증권 중개인들은 해당 정보를 이용하여 필요한 비즈니스 의사결정에 도움을 받을 수 있다.

부동산 시장에서도 웹 크롤링을 활용한다. 부동산 시장에서는 가격 예측뿐만 아니라 가격 책정 시에도 웹 크롤링을 활용한다. 과거 데이터는 웹 크롤러를 이용하여 인터넷의 다양한 출처에서 수집한다. 부동산 기업은 해당 정보를 마케팅 전략이나 의사결정 과정에 활용하기도 한다.

실제로 미국 주요 부동산 거래 플랫폼 질로우(Zillow)는 인터넷에 공개된 정보를 수집하여 부동산의 적정 가격을 평가한다.

[저작권자ⓒ CWN(CHANGE WITH NEWS). 무단전재-재배포 금지]

최신기사

뉴스댓글 >

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.
- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

댓글 0

Today

Hot Issue