본문 바로가기
반응형

python8

[python] 데이터 전처리 정규식을 사용한 Cleansing함수 import re def cleansing(text): pattern = '(\[a-zA-Z0-9\_.+-\]+@\[a-zA-Z0-9-\]+.\[a-zA-Z0-9-.\]+)' # e-mail 주소 제거 text = re.sub(pattern=pattern,repl=' ',string=text) pattern = '(http|ftp|https)://(?:[-\w.]|(?:\da-fA-F]{2}))+' # url 제거 text = re.sub(pattern=pattern,repl=' ',string=text) pattern = '([ㄱ-ㅎㅏ-ㅣ])+' # 한글 자음, 모음 제거 text = re.sub(pattern=pattern,repl=' ',string=text) pattern = ']*>' # htm.. 2020. 3. 18.
[전처리] python 데이터 추출 (기본) 사용 Tool : jupyter notebook 0. 라이브러리 임포트 import pandas as pd # pandas 데이터 프레임 라이브러리 가지고옴 import numpy as np 1. 데이터 추출하기 (경로를 모를때는 pwd로 현재 경로를 볼 수 있다.) reserve_tb = pd.read_csv('data/reserve.csv', encoding = 'utf-8') # 인코딩 설정. reserve_tb.head() # reserve_tb가 잘 들어왔는지 5 행말 추출한다. reserve_tb.shape # reserve_tb의 행과 열의 수를 볼 수 있다. 전체적인 shape 확인 가능 # numpy함수의 기능 # head(N) : 상위에서 추출할 숫자를 설정할 수 잇다. 2. 추출할 열.. 2020. 2. 13.
[파이썬] 데이터 타입(list, tuple, dict, set) 차이점 정리 Collection타입 중 데이터타입 1. list -> 순서가 존재, indexing 존재, mutable(변경 가능) 2. tuple -> 순서가 존재, immutable(생성된 후 변경 불가) 3. dict -> 키와 값으로 구성, 중복 불가, 순서 X 4. set -> 키값으로만 존재, 중복 불가, 순서 X 1. List와 tuple의 차이 list_ = [1,2,3,'python',[32,53]] tuple_ = (1,2,3,4,(32,231)) list의 경우 인덱스를 지정하여 값을 변경할 수 있다. 하지만 tuple의 경우 변경이 되지 않는다. a = 'what a nice day!' a[0] = 'k' 라고 입력하을 하게되면 오류가 생긴다. 수정하기 위해선 a = 'k' + a[1:] 로 .. 2019. 10. 6.
[Pandas] concat함수 사용하는 방법(feat.Series, DataFrame) concat명령어는 concatenate의 약자이다. 단순히 데이터를 연결 한다. 기본적으로는 위/아래 데이터 행을 연결한다. Series함수를 통해 시리즈를 만들고 concat함수를 사용했다. axis옵션을 주어지면 해당 인덱스에 맞게 옆으로 데이터를 붙일 수 있다. 이번에는 DataFrame을 사용하는 경우를 보자. concat함수와 함께 axis옵션과 sort옵션도 넣어보았다. sort 기능은, True와 False 선택을 할 수 있다. 나열하는 기능인데 index를 중심으로 내림차순으로 나열이 된다. concat함수를 알아보면서 Series와 DataFrame도 만들어 보았다. 눈에는 익숙하나 손에는 아직 익숙치 않다. 또한, pandas 에는 Series와 DataFrame이라는 뭐랄까... 형.. 2019. 8. 21.
반응형