Data/데이터분석3 [EDA] 전력 사용량 시계열 데이터 분석하기 (데이콘) https://dacon.io/competitions/official/236125/data 2023 전력사용량 예측 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 데이콘에서 진행한 전력 사용량 예측하기 모델에 대한 EDA를 해보겠다. 우선 데이터셋을 다운로드받아 확인해보자. 1. train.csv : 100개 건물들의 2022년 06월 01일부터 2022년 08월 24일까지의 데이터(전력사용량, 일시, 기온 등) 2. test.csv : 100개 건물들의 2022년 08월 25일부터 2022년 8월 31일까지의 데이터 (전력사용량, 일시, 기온 등) 3. building_info.csv : 100개 건물 정보 (건물 번호, 유형,.. 2023. 11. 26. 시계열 데이터 정상성(Stationarity)과 차분 정상성이란? 과거 관찰값을 바탕으로 미래를 예측하기 위해서는 수집된 관측값이 안정적으로 유지되고 있는지, 또는 계속해서 변동하는 상태인지를 확인해야 한다. 이때, 시계열의 안정적 수준이 '정상성'이며, 변하지 않고 일정한 상태를 의미한다. 정상성의 만족 조건은 아래와 같다. 평균이 일정 분산이 시점에 의존하지 않음 공분산은 시차에만 의존하고, 시점 자체에 의존하지는 않음 정상성에는 강 정상성과 약 정상성이 있다. 강 정상성은 기저를 이루는 확률 분포(Underlying distribution)가 언제나 같아야 한다는 것이다. 이런 경우는 현실에서 매우 찾아보기 어렵다. 우리가 마주하는 데이터들은 항상 잡음(noise)도 존재하고 다양한 원인들이 서로 여러가지 영향을 미치고 있다. 그렇기에 어떤 시계열이 .. 2023. 9. 11. 시계열 데이터의 정의와 구성요소, 시계열 분해 시계열 데이터란? 시계열 데이터란 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터 셋의 집합이다. 시계열 데이터의 분석 목적은 시계열이 갖고 있는 법칙성을 발견해 이를 모형화하고, 또 추정된 모형을 통하여 미래의 값을 예측하는 것이다. 예를 들어, 일일 주가, 분 단위 센서 데이터, 월간 판매량 등이 시계열 데이터의 예시이다. 시계열 데이터의 종류 등간격 규칙을 갖는 시계열 데이터 불규칙 간격을 갖는 시계열 데이터 등간격 규칙을 갖으나 결측값이 포함된 시계열 데이터 시계열 데이터의 구성요소 추세 : 장기적으로 증가하거나, 감소하는 경향성이 존재하는 것 (위 그래프는 상승하는 추세) 계절성 : 계절적 요인의 영향을 받아 1년 혹은 일정 기간 안에 반복적으로 나타나는 패턴 (위 그래프는 월별 데이터가.. 2023. 9. 4. 이전 1 다음