현재 우리가 빅데이터 시대에 살고 있다는 것은 자명한 사실이며 데이터 아키텍처에게는 빅데이터에 대한 지식은 필수적인 역량이 되어 가고 있다.

이 페이지를 시작으로 빅데이터 처리 프레임워크인 Hadoop에 대해서 알아갈 예정이다.

 


우선, 모두 한 번쯤은 들어 보았을 빅데이터에 대한 정의를 간단하게 알아보자.

 

빅데이터란?

빅데이터란 기존의 데이터베이스의 능력을 넘어서는 대량의 데이터를 의미하며, 이러한 데이터를 처리하고 분석하는 기술을 포함하고 있다.

 

쉽게 생각하면 디지털 시대의 사람들은 일상의 대부분을 PC, 모바일 기기 등을 사용하면서 로그인 데이터, 웹 사이트 접속 데이터와 같은 다량의 데이터를 매일 생성한다. 그리고 이러한 데이터의 양이 급증하게 되면서 빅데이터란 개념이 등장했다고 생각하면 된다.

 

그러나 기존의 단일 디스크를 이용하여 빅데이터를 처리하는 것에는 '데이터를 읽고 사용하는 것에 시간이 많이 필요'하다는 어려움이 존재하게 되었다.

이를 해결하기 위해 여러 개의 디스크에서 데이터를 '병렬'로 읽고 사용하는 것을 고려하게 되었지만 이 부분에도 몇 가지의 어려움이 존재하게 되었다.

 

 

 

데이터를 병렬로 읽고 사용하는 것은 왜 어려울까?

1. 하드웨어 장애의 문제가 존재한다.

- 데이터 병렬 처리를 위해 많은 하드웨어를 사용할수록 장애가 발생할 확률이 높아진다.

- 하드웨어 장애가 발생하면 데이터 손실이란 문제점이 발생한다.

➡️ 데이터 손실의 문제를 해결하기 위해 데이터를 중복시켜 저장해주는 HDFS(분산 파일 시스템)이 등장하게 되었다.

 

2. 분산되어 나눠진 데이터를 결합하는 것은 어렵다.

- 여러 개의 디스크에 나눠진 데이터를 합치는 과정은 쉽지 않다.

➡️ 이 문제를 해결하기 위해 데이터를 병렬 처리해주는 Map Reduce(맵리듀스) 프레임워크가 등장하게 되었다.

 

결국, 하둡은 빅데이터를 빠르게 처리하기 위해 HDFS(분산 파일 시스템)과 Map Reduce(맵리듀스) 프레임워크를 사용하게 되었다.

 

 

 

다시 말해, 하둡이란?

대용량의 데이터를 병렬 처리하여 처리 속도를 높이는 오픈소스 프레임워크이다.

 

결국, 빅데이터를 빠르게 처리하기 위해 등장한 기술이며, 오늘날의 빅데이터 실무자에게는 필수적인 기본 소양이 되는 것이다.

다음 시간에서는 아래 하둡의 아키텍처를 구성하고 있는 맵리듀스 분산 처리 프레임워크부터 하나씩 배워볼 예정이다.

 

 

 

하둡의 아키텍처: 분산 파일 시스템(HDFS) + 맵리듀스(Map Reduce)

- HDFS: 데이터를 중복시켜 저장하여 데이터를 안전하게 보호하는 분산 파일 시스템

- Map Reduce: 데이터를 병렬 처리해주는 분산 처리 프레임워크

 

 

 

 

 

* 위 내용은 [하둡 완벽 가이드] 저자: 톰 화이트 의 내용을 기반으로 작성되었습니다.

 

2022년 07월

 

학부생과 인턴 과정을 마치고 Data Engineering 팀의 Data Architect 신입으로서 커리어를 시작하게 되었다.

그동안 바래왔던 직무와 직책을 가지고 커리어를 시작하게 되었음을 감사하게 생각하며,

앞으로 더 열심히 노력해야겠다고 생각하게 되었다.

 

신입으로서 배우고 싶은 지식과 기술을 하나씩 해결해가고,

나의 개인적 삶을 위한 공부와 취미를 배울 것이다.

 

내 인생에서 [나라는 사람으로서 / 개발자로서] 함께 성장할 수 있도록 노력하고,

이러한 과정을 이 공간에서 기록해보려 한다.

 

 

+ Recent posts