반응형

빅데이터, 머신러닝, 딥러닝 등 소위 대세라고 불리는 개념의 중심에는 데이터가 있습니다.

특히 웹에는 다양한 정보가 경쟁하듯이 넘쳐나죠. 증가하는 데이터의 양은 놀랍기만 합니다. 최근 IDC의 보고서에 따르면, 오는 2025년에는 163ZB(제타바이트)의 데이터가 생성될 것이라고 합니다. (163ZB..사실 어느정도의 양일지 감이 오지 않네요.) 이제 데이터는 매우 소중한 자산이고 돈이 되었고 기업과 개인들은 새로운 과제에 직면합니다. 생성된 모든 데이터는 똑같이 중요하지 않으며, 맥락이 없는 데이터는 아무 소용이 없기때문이죠.

우리가 시간이 있다면 모든 내용을 보고 꼼곰하게 검토하고 열심히 찾아서 또는 매일매일 빠짐없이 정보를 찾아보겠지만 우리는 이미 너무나 바쁘고 할 일이 많습니다.


가뜩이나 바쁜 세상, 원하는 자료를 누군가 대신 찾아서 정리해 주면 얼마나 좋을까요?

과거에 종이신문을 보고 필요한 부분이 있으면 잘 오려서 공책에 붙이고 필요한 메모를 적고는 했었는데 이렇게 모인 자료는 시간이 지나면 유용한 가치가 있었습니다. 우리는 이런 작업을 신문 '스크랩핑' 이라 불렀습니다. 그럼 웹 스크래핑이 무엇일까요?

아직도 많은 사람들이 종이신문을 보기도 하지만 대부분은 웹에서 쉽게 제공되는 정보를 그대로 접하고 사용하게 됩니다. 정보를 접하기 쉬운 만큼 제공하기도 쉬워져서 가치가 떨어지는 자료들도 넘쳐 나죠. 다시 말하자면 이 중에 우리가 원하는 가치 있는 자료를 찾아 모으는 일이 그만큼 더 어렵고 오래 걸리게 되었다는 것을 의미합니다.

여기에 대한 답이 있습니다. 그것이 바로 웹 스크래핑입니다. 웹스크랩핑은 웹사이트에서 내가 원하는 데이터를 추출하여 내가 원하는 형태로 가공하는 행위를 말합니다. 웹 스크래핑은 조사 작업, 영업, 마케팅, 금융, 전자 상거래 등에 사용되며 많은 경우 경쟁사에 대해 더 많이 알아보기 위해 사용되기도 합니다.

물론 웹 스크래핑 기술은 기존 기업들의 서비스와 서버에 부하를 줄 수 있어 기업들은 이러한 상황을 막기 위해 API를  제공하기도 하지만 API를 통해서 제공되는 데이터는 제한적이고 원하는 데이터를 내가 원하는 형태로 얻지 못하기때문에 웹 스크래핑을 통해 필요한 정보를 사이트에서 데이터를 직접 추출하고 가공합니다.

예를들어, 네이버 증권에서 인기검색 Top 10 종목을 조회 할 수도 있고

동행복권 사이트에서 회차별로 1등 번호를 수집 할 수도 있습니다. 웹 스크래핑을 이용하면 보시는 것과 같이 반복적으로 클릭하는 행위도 줄일 수 있습니다.

다만 웹 스크랩핑은 정보를 제공하는 상대의 의사를 확인하고 약속하여 자료를 받는 오픈 API방식과는 달리 저작권과 같이 민감한 사안들이 존재합니다. 기본적으로 웹 스크랩핑이라는 행위 자체는 불법은 아니지만 수집한 데이터를 비즈니스에 이용하거나 데이타 자체를 상업적으로 이용 한다면 문제가 될 수 있습니다. 웹 스크랩핑을 사용하는 스스로가 제공하는 상대의 정보를 보호하며 사용해야 하다는 관점으로 접근 할 필요가 있습니다.

반응형