Data6 [EDA] 전력 사용량 시계열 데이터 분석하기 (데이콘) https://dacon.io/competitions/official/236125/data 2023 전력사용량 예측 AI 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 데이콘에서 진행한 전력 사용량 예측하기 모델에 대한 EDA를 해보겠다. 우선 데이터셋을 다운로드받아 확인해보자. 1. train.csv : 100개 건물들의 2022년 06월 01일부터 2022년 08월 24일까지의 데이터(전력사용량, 일시, 기온 등) 2. test.csv : 100개 건물들의 2022년 08월 25일부터 2022년 8월 31일까지의 데이터 (전력사용량, 일시, 기온 등) 3. building_info.csv : 100개 건물 정보 (건물 번호, 유형,.. 2023. 11. 26. [Big Data Application] HTTP HTTP and Sessions The HTTP protocol is connectionless - That is, once the server replies to a request, the server closes the connection with the client, and forgets all about the request - In contrast, Unix logins, and JDBC/ODBC connections stay connected until the client disconnects : retaining user authentication and other information - Motivation: reduces load on server : operating systems ha.. 2023. 9. 18. [Big Data Application] HTML and HTTP Uniform Resources Locators In the Web, functionality of pointers is provided by Uniform Resource Locators (URLs). URL example: http://www.myweb.com/dbstore/application/dbprogram The first part indicates how the document is to be accessed - “http” indicates that the document is to be accessed using the Hyper Text Transfer Protocol. - The second part gives the unique name of a machine on the Inter.. 2023. 9. 18. 시계열 데이터 정상성(Stationarity)과 차분 정상성이란? 과거 관찰값을 바탕으로 미래를 예측하기 위해서는 수집된 관측값이 안정적으로 유지되고 있는지, 또는 계속해서 변동하는 상태인지를 확인해야 한다. 이때, 시계열의 안정적 수준이 '정상성'이며, 변하지 않고 일정한 상태를 의미한다. 정상성의 만족 조건은 아래와 같다. 평균이 일정 분산이 시점에 의존하지 않음 공분산은 시차에만 의존하고, 시점 자체에 의존하지는 않음 정상성에는 강 정상성과 약 정상성이 있다. 강 정상성은 기저를 이루는 확률 분포(Underlying distribution)가 언제나 같아야 한다는 것이다. 이런 경우는 현실에서 매우 찾아보기 어렵다. 우리가 마주하는 데이터들은 항상 잡음(noise)도 존재하고 다양한 원인들이 서로 여러가지 영향을 미치고 있다. 그렇기에 어떤 시계열이 .. 2023. 9. 11. [Big Data Application] 빅데이터 응용 개요 What's a Database? top : user view middle : tech features Data, Easy understanding, Easy usage : focus on db class Fast performance, Multiple users, Reliable usage : focus on technology What kinds of Database Applications are there? using inside of database : internally, good performance, bad portability (DDPL: not standarlize) outside of database : bad-communication cost, better portability (St.. 2023. 9. 6. 시계열 데이터의 정의와 구성요소, 시계열 분해 시계열 데이터란? 시계열 데이터란 일정한 시간동안 수집된 일련의 순차적으로 정해진 데이터 셋의 집합이다. 시계열 데이터의 분석 목적은 시계열이 갖고 있는 법칙성을 발견해 이를 모형화하고, 또 추정된 모형을 통하여 미래의 값을 예측하는 것이다. 예를 들어, 일일 주가, 분 단위 센서 데이터, 월간 판매량 등이 시계열 데이터의 예시이다. 시계열 데이터의 종류 등간격 규칙을 갖는 시계열 데이터 불규칙 간격을 갖는 시계열 데이터 등간격 규칙을 갖으나 결측값이 포함된 시계열 데이터 시계열 데이터의 구성요소 추세 : 장기적으로 증가하거나, 감소하는 경향성이 존재하는 것 (위 그래프는 상승하는 추세) 계절성 : 계절적 요인의 영향을 받아 1년 혹은 일정 기간 안에 반복적으로 나타나는 패턴 (위 그래프는 월별 데이터가.. 2023. 9. 4. 이전 1 다음