반응형 일상 기술노트54 01. 작업환경 만들기 (GCP Compute Engine 만들어보기) 실무로 배우는 빅데이터 기술 책을 참고하여 데이터 파이프라인의 환경을 구성하고자 한다. 우선 내가 생각하는 하둡, 스파크, 카프카를 구현하기 전에 어떠한 환경에서 작업환경을 셋팅하고 구현할 지를 고민하였다. 장비 사기 Vmware 클라우드 (GCP) 3가지 환경중에 나는 3. 클라우드를 선택했다. (관련 내용은 후에 포스팅) 클라우드와 함께 내가 또 갖춰야 할 환경은 바로 '도커(docker)에서 컨테이너로 OS 구현하기' 였다. 진행할 Step GCP 환경 구성 Docker 설치 CentOS 설치 하둡 설치 1. GCP 환경구성하기 ( 위에서는 GCP에서만 한다고 했는데, 내가 사용해볼 수 있는 모든 것을 한번 해보려 한다. 클라우드도 비용의 한계가;;;) 환경을 구성하기 위해서는 최소한의 비용이 들게.. 2020. 7. 7. 분석용 DB를 따로 사용하는 이유 *업무를 하면서 OLAP DB는 똑같은 DB인데 왜 다른데에서 다른 DB엔진을 가지고 사용하는지 궁금했다. 업무를 하면서 나 나름대로 느낀 생각 및 정보들이다. 완벽한건 아니지만 어디까지나 흐름은 파악할 수 있을것 같다. OLAP을 하기 위해서는 현재 서비스하고 있는 DB를 사용하지 않는다. 현재 서비스 하고 있는 데이터를 다른 DB로 옮기는 작업을 한다. 이것을 'ETL'이라고 한다. 'ETL'을 그렇다면 왜 하는 것일까? 'ETL'을 하는 이유는 데이터를 옮기기 위해 그렇다면 왜 다른 DB를 쓸까? 돈도 아끼고 그냥 있는 DB를 사용하면 되는데... DB를 사용하기 위해서 우리는 '쿼리'라는 DB언어로 DATA를 조회/삭제/삽입/수정 과 같은 작업을 한다. (물론 OLAP을 하기 위해서는 조회만 하겠.. 2020. 5. 22. OLAP 이란? BI란? 회사경험하고 정리... 나는 현재 OLAP과 ETL 업무를 하고 있다. OLAP을 위해서는 운영서비스를 하기 위한 DB가 아닌 분석용 DB를 따로 설계를 한다. 분석용 DB는 운영 DB의 데이터를 분석하기 위한 구조로 변형하여 적재를 한다. 이때 이루어지는 것이 ETL 이다. ETL을 통해 분석 DB에 운영에서 생산된 DATA들을 쌓는다. 이렇게 DATA들이 쌓인 DB를 개발자가 아닌 사람들이 사용하기 위해서는 프로그램을 통해서 UI 및 쿼리로 DATA로 접근할 수 있도록 한다. R과 파이썬은 좀더 통계학적이고 수학적인요소 및 머신러닝 같은 기술을 사용하여 데이터 분석에 더욱 특화되어 있다. BI TOOL 또는 OLAP 은 그 정도까지는 아니지만 개발자가 아닌 다른 사람이 데이터를 분석할 수 있도록 도와준다. OLAP 업무를 .. 2020. 5. 22. 엑셀 꿀팁 (단축키) 어쩌다 발견한 액셀 꿀팁 위의 글을 복사+붙여넣기 하고 싶다면 ctrl+shift+' 2020. 5. 20. 이전 1 ··· 3 4 5 6 7 8 9 ··· 14 다음 반응형