데이터 파이프라인은
단순히 생각한다면 데이터를 이동시킬 수 있는 통로를 만드는 것이다.
예를 들면
API -----> DB
DB'' ------> DB'
DB ------> BI Tool
이런 식으로 데이터를 옮길 수 있게 만들어주는 것이 데이터 파이프 라인이다.
데이터 파이프라인의 필요성은?
1. Data의 생성과 저장을 위해서 필요하다. => 데이터 활용 혹은 보관 목적
2. 데이터사일로 현상 : 조직별로 데이터가 고립이 되어 활용을 못하게 됨
=> Data Intergration(데이터 통합) 을 하기 위해 데이터 파이프라인이 필요
데이터 파이프라인 구축시 고려사항
1. scalability - 데이터가 기하급수적으로 늘어났을 때 작동하는가?
2. stability - 에러, dataflow -> 모니터링 관리
3. secutiry - 보안, 리스크는?
(개인적 경험/견해) 회사에서는 데이터 파이프라인을 구축하기 위해 ETL TOOL을 사용하고 있다.
늘 ETLTOOL을 사용하는 줄 알았지만, 이것을 실제로 개발하는 기술도 필요한것 같다.
그리고 API에서 추출할 때 나 어떠한 서비스에서 데이터를 추출할 때의 고려할점도 눈여겨 볼 필요가 있어보인다.
반응형
'일상 기술노트 > BI,ETL,OLAP' 카테고리의 다른 글
분석용 DB를 따로 사용하는 이유 (0) | 2020.05.22 |
---|---|
OLAP 이란? BI란? 회사경험하고 정리... (0) | 2020.05.22 |
Ad hoc (정보 추가,정리 필요) (0) | 2019.12.19 |
데이터아키텍처-자동화란? (0) | 2019.12.19 |
2019년을 돌아보면서 (BI가 뭐죠 ?) (0) | 2019.12.14 |