1 분 소요

key word : BigData, 빅데이터의 정착 배경, 빅데이터



빅데이터를 다루기 이전에 빅데이터는 어떻게 구성되며, 어떻게 처리되는지를 알아보고자 ‘빅데이터를 지탱하는 기술’을 읽고 있다. 오늘은 그중에서도 빅데이터라는 것이 어떻게 가능하게 되었는지에 대해 알아보려 한다.



빅데이터를 정착시킨 기술

약 십 년 전부터 새로운 가치를 창출하거나 의사 결정을 더욱 쉽게 하기 위해 빅데이터를 활용하고자 하는 움직임이 활발해졌다. 이전부터도 데이터를 이용하는 모습은 쉽게 찾아볼 수 있었지만 데이터 처리에 많은 시간과 리소스가 들어가기 때문에 지금처럼 방대한 양의 데이터를 운용하기는 힘들었다. 빅데이터는 데이터의 분산 처리가 가능해지고 RDB의 제약이 줄어들면서 활발하게 사용되기 시작했다고 볼 수 있다. Hadoop과 NoSQL이라는 두 기술의 발전으로 방대한 양의 데이터를 현실적인 비용으로 분산 처리하는 것이 가능해졌다. 두 기술의 특징은 다음과 같다.

  1. Hadoop
    • 데이터를 분산처리하기 위한 시스템.
    • 데이터를 여러 컴퓨터에 분산해 저장하고, 그 데이터를 처리할 수 있게 해주는 프레임워크이다.
    • 구글의 분산 처리 프레임워크인 ‘MapReduce’를 참고하여 제작됨.
    • 자바로 프로그래밍해야하지만 Hive가 개발되며 SQL 쿼리를 실행할 수 있게 됨.
  2. NoSQL
    • Not Only SQL의 약자로 RDB의 제약을 제거하는 것을 목표로한 데이터베이스들을 일컫는다.
    • 종류에 따라 ‘key-value store’, ‘document store’, ‘wide-column sotre’, ‘graph store’ 등으로 나뉜다. 좀 더 자세한 사항은 링크를 참조하길..
    • 전반적으로 RDB에 비해 고속의 읽기, 쓰기가 가능하며 분산 처리에 뛰어나다.



빅데이터의 비즈니스적 활용

기업에서는 데이터 분석을 위해 주로 데이터 웨어하우스(DWH)를 이용했다. 대량의 데이터를 처리할 수 있고, 성능적인 면에서 Hadoop을 이용한 분산처리보다도 뛰어나 여전히 사용되는 방식이기도 하다. 하지만 데이터 웨어하우스는 주로 뛰어난 성능과 안정성을 위해 장비와 소프트웨어가 통합되어 서비스되었고, 데이터 용량을 늘리기 위해서는 하드웨어를 새롭게 교체해야한다는 큰 단점이 존재한다.

Hadoop은 여러대의 컴퓨터를 이용해 데이터를 분산처리할 수 있고 이는 데이터 웨어하우스가 갖지 못한 장점이다. 특히 클라우드 컴퓨팅 기술이 발전하면서 컴퓨터 자원을 늘리는 데 제약이 줄어들어 Hadoop을 이용한 빅데이터 운용이 더 빠르게 비즈니스에 이용될 수 있었다.

데이터 웨어하우스는 성능과 안전성이 비교적 보장되므로 Hadoop을 통해 대량으로 발생하는 데이터를 저장하고, 집계한 결과 등 처리한 데이터만을 데이터 웨어하우스에 보관하면서 부하를 줄이는 방식을 사용하고 있다.

출처 : https://www.qlik.com/us/data-integration/data-pipeline



결론

빅데이터가 활발하게 언급되기 시작한지 약 10여년 정도가 되었다고 한다. 그 이전과달리 분산처리와 고속으로 데이터를 저장하는 기술이 발달했기에 가능한 일이었고, 오늘은 이에 대해 알아봤다. 데이터 파이프라인 구성 및 시각화에 대해서도 정리하고 싶었지만 좀 더 공부한 뒤 체계적으로 정리하고싶어 다음 포스팅으로 넘긴다.



참고

빅데이터를 지탱하는 기술, 니시다 케이스케, 제이펍, 2021(전자책)

업데이트: