이상치 : 데이터셋에서 다른 데이터와 동떨어진 값
->이상치는 데이터 분석을 방해하는 요소로 작용할 수 있으며, 모델의 성능을 저하시키거나 예측 결과를 왜곡시키는 원인이 될 수 있다
->이상치를 제거하거나 대체하는 전처리 과정이 필요
diff란 '차이'를 의미하는데, 데이터의 차이를 계산해서 이상치를 처리하는 방법
<diff로 이상치 처리 과정>
1)데이터 탐색
이상치 처리 과정을 시작하기 전에 먼저 데이터셋을 탐색해야 합니다. 데이터셋을 탐색하면 이상치를 찾는 데 도움이 되는 정보를 얻을 수 있습니다.
데이터셋의 기초 통계량(평균, 표준편차, 중앙값 등)을 계산하고, 시각화를 통해 데이터의 분포를 파악
2)차이 계산
데이터셋을 탐색한 후, diff로 이상치를 처리하기 위해 차이를 계산한다.
이 방법은 데이터 포인트와 해당 데이터 포인트의 주변 데이터 포인트 간의 차이를 계산하는 것입니다.
차이를 계산하면, 각 데이터 포인트의 이상치 여부를 쉽게 결정할 수 있다
3)이상치 처리
이제 차이를 계산한 후, 각 데이터 포인트의 이상치 여부를 결정할 수 있다.
이상치를 제거하는 방법으로는 대표적으로 3가지가 있다
1)이상치를 삭제하는 방법
2)이상치를 대체하는 방법
3)이상치를 유지하는 방법
이상치를 삭제하는 방법은, 이상치를 포함한 데이터 포인트를 삭제하고 나머지 데이터를 사용하는 것이다.
이 방법은 이상치가 매우 드물거나, 데이터셋의 크기가 큰 경우 유용하다.
이상치를 대체하는 방법은, 이상치를 다른 값으로 대체하는 것이다.
이 방법은 이상치가 일부일 때 유용하다. 이상치를 유지하는 방법은, 이상치를 그대로 유지하고 모델에서 이를 고려하는 것이다.
이 방법은 이상치가 모델의 결과에 큰 영향을 미치지 않거나, 이상치 자체가 중요한 정보를 담고 있을 때 유용하다
4)이상치 처리 후 검증
이상치를 처리한 후에는 데이터셋을 다시 탐색하고 모델을 재학습하여 성능을 평가해야 한다.
이상치를 제거하거나 대체하는 과정에서 모델의 성능이 개선될 수 있지만, 이상치를 너무 많이 처리하면 데이터셋이 손실될 수 있습니다. 이에 따라 이상치 처리 후 모델의 성능을 다시 평가하여 최종 모델을 선택해야 한다
이상치 처리는 데이터 분석에서 매우 중요한 과정입니다.
diff를 이용한 이상치 처리는 비교적 간단하며, 대량의 데이터셋에서 빠르게 처리할 수 있다.
하지만 이 방법이 항상 효과적이라는 보장은 없으므로, 다양한 이상치 처리 기법을 적절히 활용해야 한다.
이상치 처리는 데이터 분석 과정에서 필수적인 과정이므로, 데이터 분석을 하시는 모든 분야에서 이에 대한 이해와 경험이 필요하다
<diff를 사용한 전처리 시도>