데이터 전처리

Page content

데이터 전처리

  • 데이터 클렌징

  • 결손값 처리(Null/NaN 처리)

  • 데이터 인코딩(레이블, 원-핫 인코딩)

머신러닝 알고리즘은 문자열 데이터 속성을 입력 받지 않으며 모든 데이터는 숫자형으로 표현되어야 합니다. 문자형 카테고리형 속성은 모두 숫자값으로 변환/인코딩 되어야 합니다.

레이블(Label) 인코딩

  • [TV, 냉장고, 전자레인지, 컴퓨터, 선풍기, 믹서] -> [0, 1, 4, 5, 3, 2]
  • 문제점 : 분류를 레이블 인코딩하면 관계성이 확보되지 않는다.

원-핫(One-Hot) 인코딩

원-핫 인코딩은 피처 값의 유형에 따라 새로운 피처를 추가해 고유 값에 해당하는 컬럼에만 1을 표시하고 나머지 컬럼에는 0을 표시하는 방식입니다.

원본 데이터 -> 숫자로 인코딩 -> 원-핫 인코딩

데이터 전처리 필요 과정

  • 데이터 스케일링

  • 이상치 제거

  • Feature 선택,추출 및 가공