본문 바로가기
반응형

일상 기술노트/BI,ETL,OLAP6

분석용 DB를 따로 사용하는 이유 *업무를 하면서 OLAP DB는 똑같은 DB인데 왜 다른데에서 다른 DB엔진을 가지고 사용하는지 궁금했다. 업무를 하면서 나 나름대로 느낀 생각 및 정보들이다. 완벽한건 아니지만 어디까지나 흐름은 파악할 수 있을것 같다. OLAP을 하기 위해서는 현재 서비스하고 있는 DB를 사용하지 않는다. 현재 서비스 하고 있는 데이터를 다른 DB로 옮기는 작업을 한다. 이것을 'ETL'이라고 한다. 'ETL'을 그렇다면 왜 하는 것일까? 'ETL'을 하는 이유는 데이터를 옮기기 위해 그렇다면 왜 다른 DB를 쓸까? 돈도 아끼고 그냥 있는 DB를 사용하면 되는데... DB를 사용하기 위해서 우리는 '쿼리'라는 DB언어로 DATA를 조회/삭제/삽입/수정 과 같은 작업을 한다. (물론 OLAP을 하기 위해서는 조회만 하겠.. 2020. 5. 22.
OLAP 이란? BI란? 회사경험하고 정리... 나는 현재 OLAP과 ETL 업무를 하고 있다. OLAP을 위해서는 운영서비스를 하기 위한 DB가 아닌 분석용 DB를 따로 설계를 한다. 분석용 DB는 운영 DB의 데이터를 분석하기 위한 구조로 변형하여 적재를 한다. 이때 이루어지는 것이 ETL 이다. ETL을 통해 분석 DB에 운영에서 생산된 DATA들을 쌓는다. 이렇게 DATA들이 쌓인 DB를 개발자가 아닌 사람들이 사용하기 위해서는 프로그램을 통해서 UI 및 쿼리로 DATA로 접근할 수 있도록 한다. R과 파이썬은 좀더 통계학적이고 수학적인요소 및 머신러닝 같은 기술을 사용하여 데이터 분석에 더욱 특화되어 있다. BI TOOL 또는 OLAP 은 그 정도까지는 아니지만 개발자가 아닌 다른 사람이 데이터를 분석할 수 있도록 도와준다. OLAP 업무를 .. 2020. 5. 22.
Ad hoc (정보 추가,정리 필요) Ad hoc(비정규형) 분석 Data를 분석 하기위해 Ad hoc 분석까지 Data - (분석) -> Adhoc분석 ------------------------------ 이러한 분석할 환경을 구축하는 것은 필수적이다. 왜? 많은 사람들이 Data를 분석하는 것을 필요로 하기 때문이다. 이러한 Adhoc 분석하기 위해서는 자동화가 필요하다 ex) 만약 최신 data를 가져오기 위해서는 이니셜데이터(초기 적재)를 삽입해야 한다. Data Backfill을 하여 Adhoc의 Data를 가져오려면 프로세싱 시스템 구축이 필요하다. 2019. 12. 19.
데이터아키텍처-자동화란? 자동화란? 데이터 추출/수집/정체 프로세싱을 머신으로 운영하는 것. 데이터 자동화를 위해 고려해야할 사항 1) 데이터 프로세싱 스탭들 (what, how, 시각화는?) 2) 에러 핸들링 및 모니터링 (에러가 났을 때 조치방법은, performance는 어떻게 나는지?) 3) 트리거 / 스케쥴링 2019. 12. 19.
반응형