Data Leakage #데이콘 #캐글 #부정행위

Machine Learning

[Machine Learning] Data Leakage

데이콘에서 대회를 참여하다 보면 규칙 중에 Data Laekage 부정행위가 있다. 머신러닝을 공부하며 대회에 처음 참가하는 초보자 입장에서는 이게 무엇을 의미하는지 잘 모를 수 있다고 생각한다. (필자가 그랬기 때문이다..) 따라서 이 Data Leakage라는 부정행위에 대해 알아보고자 한다. Data Leakage란? Data Leakage는 train data 외의 정보가 모델을 만드는데 사용될 때 발생한다. 이러한 추가적인 정보를 통해 모델은 다른 방법으로는 알지 못하는 무언가를 배우거나 알 수 있으며, 생성되는 모델의 예측 성능을 무효화할 수 있다. 결론적으로 Data Leakge로 인해 엉뚱한 모델이 만들어지고, 이는 곧 해석이 무의미해짐을 의미한다. 간단하게 말하자면, test 데이터의 개..

seungseop
'Data Leakage #데이콘 #캐글 #부정행위' 태그의 글 목록