반응형 cleansing 함수1 [python] 데이터 전처리 정규식을 사용한 Cleansing함수 import re def cleansing(text): pattern = '(\[a-zA-Z0-9\_.+-\]+@\[a-zA-Z0-9-\]+.\[a-zA-Z0-9-.\]+)' # e-mail 주소 제거 text = re.sub(pattern=pattern,repl=' ',string=text) pattern = '(http|ftp|https)://(?:[-\w.]|(?:\da-fA-F]{2}))+' # url 제거 text = re.sub(pattern=pattern,repl=' ',string=text) pattern = '([ㄱ-ㅎㅏ-ㅣ])+' # 한글 자음, 모음 제거 text = re.sub(pattern=pattern,repl=' ',string=text) pattern = ']*>' # htm.. 2020. 3. 18. 이전 1 다음 반응형