카테고리 없음

diff를 사용해서 데이터 전처리 스터디 진행중

강블루 2023. 3. 1. 11:53

이상치 : 데이터셋에서 다른 데이터와 동떨어진 값
->이상치는 데이터 분석을 방해하는 요소로 작용할 수 있으며, 모델의 성능을 저하시키거나 예측 결과를 왜곡시키는 원인이 될 수 있다
->이상치를 제거하거나 대체하는 전처리 과정이 필요

diff란 '차이'를 의미하는데, 데이터의 차이를 계산해서 이상치를 처리하는 방법

<diff로 이상치 처리 과정>

1)데이터 탐색

이상치 처리 과정을 시작하기 전에 먼저 데이터셋을 탐색해야 합니다. 데이터셋을 탐색하면 이상치를 찾는 데 도움이 되는 정보를 얻을 수 있습니다. 

데이터셋의 기초 통계량(평균, 표준편차, 중앙값 등)을 계산하고, 시각화를 통해 데이터의 분포를 파악

2)차이 계산

데이터셋을 탐색한 후, diff로 이상치를 처리하기 위해 차이를 계산한다. 

이 방법은 데이터 포인트와 해당 데이터 포인트의 주변 데이터 포인트 간의 차이를 계산하는 것입니다. 

차이를 계산하면, 각 데이터 포인트의 이상치 여부를 쉽게 결정할 수 있다

3)이상치 처리

이제 차이를 계산한 후, 각 데이터 포인트의 이상치 여부를 결정할 수 있다. 

이상치를 제거하는 방법으로는 대표적으로 3가지가 있다

 

1)이상치를 삭제하는 방법
2)이상치를 대체하는 방법
3)이상치를 유지하는 방법

이상치를 삭제하는 방법은, 이상치를 포함한 데이터 포인트를 삭제하고 나머지 데이터를 사용하는 것이다. 

이 방법은 이상치가 매우 드물거나, 데이터셋의 크기가 큰 경우 유용하다. 

이상치를 대체하는 방법은, 이상치를 다른 값으로 대체하는 것이다. 

이 방법은 이상치가 일부일 때 유용하다. 이상치를 유지하는 방법은, 이상치를 그대로 유지하고 모델에서 이를 고려하는 것이다. 

이 방법은 이상치가 모델의 결과에 큰 영향을 미치지 않거나, 이상치 자체가 중요한 정보를 담고 있을 때 유용하다

4)이상치 처리 후 검증

이상치를 처리한 후에는 데이터셋을 다시 탐색하고 모델을 재학습하여 성능을 평가해야 한다. 

이상치를 제거하거나 대체하는 과정에서 모델의 성능이 개선될 수 있지만, 이상치를 너무 많이 처리하면 데이터셋이 손실될 수 있습니다. 이에 따라 이상치 처리 후 모델의 성능을 다시 평가하여 최종 모델을 선택해야 한다

이상치 처리는 데이터 분석에서 매우 중요한 과정입니다. 

diff를 이용한 이상치 처리는 비교적 간단하며, 대량의 데이터셋에서 빠르게 처리할 수 있다. 

하지만 이 방법이 항상 효과적이라는 보장은 없으므로, 다양한 이상치 처리 기법을 적절히 활용해야 한다. 

이상치 처리는 데이터 분석 과정에서 필수적인 과정이므로, 데이터 분석을 하시는 모든 분야에서 이에 대한 이해와 경험이 필요하다

 


<diff를 사용한 전처리 시도>