티스토리 뷰

1. Integrated Serverless Platform

Serverless는 Compute 인스턴스가 실행되도록 권한 설정을 하는데에 걱정하지 않아도 된다는 의미입니다. 서비스가 완전히 관리되어 소비하는 리소스에만 집중하면 됩니다. 플랫폼이 통합되어 GCP 데이터 서비스가 custom solution을 생성할 수 있도록 도와줍니다.

 

2. Apache Hadoop

Apache Hadoop은 빅데이터를 위한 오픈소스 프레임워크입니다. Google이 발명한 MapReduce programming model에 기반합니다. 먼저, Map function중간 결과를 생산하기 위해 대량의 데이터를 병렬적으로 실행하는 것입니다. Reduce function은 중간 결과에 기반해 최종 결과 셋을 구축합니다. 'Hadoop'이라는 용어는 종종  Apache Hadoop, .

 

3. Cloud Dataproc

Cloud Dataproc은 GCP에서 빠르고 쉽게 관리할 수 있는 방법입니다. Hadoop cluster를 요청하기만 하면, Compute Engine 가상 머신 위에 90초 이내로 구축해줍니다. 클러스터를 실행할 때 더 많거나 적은 처리 능력이 요구된다면, 확장하거나 축소할 수 있습니다. 클러스터에서 Hadoop 소프트웨어를 기본 설정으로 사용하거나 커스텀할 수 있습니다. 그리고 Stackdriver를 사용해 클러스터를 모니터링할 수 있습니다.

 

On-premises에서 Hadoop은 capital hardware investment를 필요로 합니다. Cloud Dataproc에서 이 일을 하면, 클러스터의 life 동안 사용한 하드웨어 리소스만 지불하면 됩니다. 비록 지불 비용이 시간당 비율이지만, Cloud Dataproc은 초당으로 지불하여 리소스를 더욱 agile 하게 사용합니다.

 

또한, batch processing시 선점적으로 Compute Engine 인스턴스를 사용하도록 해 비용을 절약할 수 있습니다. 데이터가 클러스터에 있다면, Spark와 Spark SQL로 데이터 마이닝을 할 수 있습니다. 그리고 Apache Spark machine learning 라이브러리인 MLib도 사용할 수 있습니다.

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크