학교 & 학원 이론 수업/소프트웨어공학과 수업

대용량 데이터 처리(k-mooc 교육과정)

kwohyuno 2023. 5. 21. 21:43

<2주차 ETL,CDC> 

-etl 솔루션 : 오픈소스도 있다 

-Apache NIFI  : 많이 쓰는 솔루션. 데이터를 병렬적으로 처리. 

-상용소스 도구는 : 3가지 정도 많이 씀. Informatia PowerCenter 은 그 중에 하나 

-Public Cloud DW도 활용 

-ELT의 장점 : 빠른 데이터 전소, 낮은 데이터 처리 비용 

 

-CDC : 데이터가 변경될 때 마다 가져오는 것 - change data capture 

-SharePlex라는 제품을 많이 씀. 

 

-EAI : 기업 정보시스템들의 데이터를 연계, 통합하는 소프트웨어/정보시스템 아키텍처 프레임워크 

-ODS란? DW 구축에서 Source 데이터에 일정한 가공 과정을 거쳐 작성. 조직의 단기적 의사결정 지원 가능. DW 를 구축하기 위한 중간적 역할 담당 

-DW란?  기업의 대단위 데이터를 주제별로 통합, 축적하여 별도의 장소에 저장해 놓은 것 . 단순한 데이터가 아니라 관계형 DB를 근간으로 다양한 정보를 저장.