본문 바로가기

빅데이터5

[NIFI] nifi 클러스터링 구성이 계속 실패 될 때 - 상황 : nifi 클러스터가 깨진 상황 - 조치 내용 : flow.xml.gz 를 동기화 후 ( Primary Node 가 아닌 경우, flow.xml.gz 가 없으면 Primary 의 template이 공유가 됨) 재기동 진행함. 2024. 1. 9.

RDBMS 개발자가 빅데이터를 대하는 자세 RDBMS 개발자가 빅데이터를 대하는 자세 Big data 와 RDBMS 는 어떠한 관계인가 ? 빅데이터와 RDBMS와의 관계는 동일한 관계도, 대결하는 관계도 아니다. 상호보완적인 관계이다. 대규모 데이터는 어떻게 활용하면 좋은가 ? 대규모 데이터로 - 원인을 찾고 - 현상을 이해하고 - 미래를 예측하는데 활용을 해야 한다. 일부 데이터의 문제가 발생되어도 사람과 시스템이 해성하는 결과에 크게 달라지지 않는 "큰 수의 법칙"이 적용. 대규모 데이터 처리 중 일부데이터의 중복 혹은 유실이 발생이 될때, 분석결과에 큰 영향이 없다면 소기의 목적을 달성 후 데이터 정합성을 지키기 위한 후속 조치를 하면 된다 큰 그림을 생각하자. 업무/프로젝트에 대한 파악과 목적성, 정체성 등이 정말로 중요하다고 느낀다. 대.. 2022. 2. 8.

[전처리] python 데이터 추출 (기본) 사용 Tool : jupyter notebook 0. 라이브러리 임포트 import pandas as pd # pandas 데이터 프레임 라이브러리 가지고옴 import numpy as np 1. 데이터 추출하기 (경로를 모를때는 pwd로 현재 경로를 볼 수 있다.) reserve_tb = pd.read_csv('data/reserve.csv', encoding = 'utf-8') # 인코딩 설정. reserve_tb.head() # reserve_tb가 잘 들어왔는지 5 행말 추출한다. reserve_tb.shape # reserve_tb의 행과 열의 수를 볼 수 있다. 전체적인 shape 확인 가능 # numpy함수의 기능 # head(N) : 상위에서 추출할 숫자를 설정할 수 잇다. 2. 추출할 열.. 2020. 2. 13.

[전처리] R로 데이터 추출하기 (기본) 1. 데이터 읽기 reserve_tb fileEncoding : 읽어올 파일의 인코딩 설정 > header : 헤더 유무 설정 > stringsAsFactors : False로 지정하여 문자열을 번주형으로 변경하지 않도록 함. 2. 라이브러리 적용 library(dplyr) # 라이브러리 적용 detach("package:dplyr", unload =TRUE) # 라이브러리 해제 3. dplyr (sql함수를 적용할 수 있다, pipe함수를 사용할 수 있다.) %>% : shortcut(ctrl+shift+m) # pipe함수를 통해 매개변수를 전달해 줄 수 있다. reserve_tb reserve_tb %>% select(reserve_id, hotel_id, customer_id, reserve_da.. 2020. 2. 13.

이전 1 2 다음

티스토리툴바