본문 바로가기
일상 기술노트/BI,ETL,OLAP

데이터 파이프라인

by 인디코더 2019. 12. 18.

데이터 파이프라인은

                         단순히 생각한다면 데이터를 이동시킬 수 있는 통로를 만드는 것이다. 

예를 들면 

 API -----> DB

 DB'' ------> DB'

 DB ------> BI Tool

이런 식으로 데이터를 옮길 수 있게 만들어주는 것이 데이터 파이프 라인이다. 

 

데이터 파이프라인의 필요성은?

1. Data의 생성과 저장을 위해서 필요하다.  => 데이터 활용 혹은 보관 목적

2. 데이터사일로 현상 : 조직별로 데이터가 고립이 되어 활용을 못하게 됨 

=> Data Intergration(데이터 통합) 을 하기 위해 데이터 파이프라인이 필요 

 

데이터 파이프라인 구축시 고려사항

1. scalability - 데이터가 기하급수적으로 늘어났을 때 작동하는가?

2. stability - 에러, dataflow -> 모니터링 관리

3. secutiry - 보안, 리스크는?

 

(개인적 경험/견해) 회사에서는 데이터 파이프라인을 구축하기 위해 ETL TOOL을 사용하고 있다. 
늘 ETLTOOL을 사용하는 줄 알았지만, 이것을 실제로 개발하는 기술도 필요한것 같다. 
그리고 API에서 추출할 때 나 어떠한 서비스에서 데이터를 추출할 때의 고려할점도 눈여겨 볼 필요가 있어보인다.

반응형