전체 글 57

ARIMA 스터디

ARIMA 모델이란? ARIMA(Autoregressive Integrated Moving Average) 모델은 시계열 데이터의 예측에 사용되는 모델 중 하나입니다. ARIMA 모델은 자기 회귀(autoregression), 미분(integration), 이동 평균(moving average)의 세 가지 요소를 조합하여 만들어진 모델입니다. ARIMA 모델의 이름에서 알 수 있듯이, 모델은 다음과 같이 세 부분으로 구성됩니다. AR(Autoregressive) 부분: 자기 회귀 항으로 이전 시점의 오차를 이용하여 현재 시점의 값을 예측합니다. I(Integrated) 부분: 미분 항으로 시계열 데이터를 안정화시킵니다. MA(Moving Average) 부분: 이동 평균 항으로 이전 시점의 오차를 이용하..

카테고리 없음 2023.02.13

강화학습 논문 스터디

논문명 : Deep Reinforcement Learning for Real-Time Optimization of Pumps in Water Distribution Systems -> 배수 펌프의 실시간 최적화를 위한 심층 강화 학습 시스템 1)강화학습(Reinforcement Learning) 1-1 개념 : 주어진 환경과 상호작용하여 좋은 점수를 얻는 방향으로 성장하는 머신러닝 분야 : 강화학습은 AI Agent가 특정 state/situation 내에 최대의 보상 Q를 가져다주는 action을 학습하는 과정 state : 특정 환경 내 상태를 의미 Agent : 모델 혹은 AI Reward : 보상 Action : Agent가 취할 행동을 의미 Policy : 특정 state에서의 최대 보상을 제공..

카테고리 없음 2023.01.31

내가 쓰려고 정리한 우분투 matplotlib 한글 깨짐 해결법

1) 터미너 열기 2) 터미널에서 이용 서버 접속 3) sudo apt-get install fonts-nanum* : *를 붙인 이유는 fonts-nanum으로 시작하는 모든 폰트를 설치하기 위해서 4) sudo fc-cache -fv :폰트 캐시( cache) 갱신 :-f :캐시 강제로 갱신 :-v : 상태 정보 확인 5) sudo fc-list :폰트 설치 잘 되었는지 확인 :나눔 폰트가 여러 개 있으면 제대로 설치 굿 6) rm -rf ~/.cache/matplotlib/* :matplotlib 라이브러리의 캐시를 삭제 7-1) 7-2) +우분투에서 주피터 노트북 사용할 떄 그래프를 다른 창에서 크게 확대하면서 보고 싶을 때 꿀팁 %matplotlib tk

카테고리 없음 2023.01.17

파이프라인(pipeline)

파이프라인(pipeline) : 일반적으로 파이프라인은 생산라인에서 동시에 여러 공정 프로세스를 효율적으로 가능하게 하도록 하는 것을 말한다 : 한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조를 가리킨다 : 머신러닝에서도 비슷하게 모델을 가속, 재사용, 관리 및 배포하는 프로세스를 구현하고 표준화를 말한다 즉 파이프라인을 사용하면 데이터 전처리와 모델 학습, 예측까지 한번에 가능하며 코드도 간결해진다

카테고리 없음 2023.01.13

폴더안에 있는 여러개의 csv 합치기

os 모듈은 Operating System의 약자로서 운영체제에서 제공되는 여러 기능을 파이썬에서 수행할 수 있게 해준다 os.listdir :지정한 디텍토리 내의 모든 파일과 디텍토리의 리스트를 리턴 :parameters(path) 리스트에서 특정 문자를 포함한 필요한 원소를 찾아 저장 parse_dates :날짜/시간 데이터 파싱 header :컬럼(열 이름)으로 사용할 행 지정 names :사용할 변수명 입력 index_col :컬럼을 index로 지정 concat :데이터프레임 합치기 :axis=0 세로 , axis=1 가로 isnumm().sum() :칼럼별 결측값 개수 구하기

카테고리 없음 2023.01.06

불균형 데이터(imbalanced data) 스터디

불균형 데이터란? -불균형 데이터란 정상 범주의 관측치 수와 이상 범주의 관측치 수가 현저히 차이나는 데이터를 말한다 +(예를 들면, 암 발생 환자가 암에 걸리지 않은 사람보다 현저히 적고, 신용카드 사기 거래인 경우가 정상 거래인 경우보다 현저히 적다) 정상을 정확히 분류하는 것과 이상을 정확히 분류하는 것 중 일반적으로 이상을 정확히 분류하는 것이 더 중요하다 ->보통 이상 데이터가 target값이 되는 경우가 많기 때문이다 파란색- 정상 관측치빨간색- 이상 관측치회색- 실제 이상 데이터의 분포 = 관측되지 않은 모르는 데이터 파란색과 빨간색의 데이터만 알고 있는 상태에서 학습을 시킬 경우 분류 경계선은 위의 그림과 같이 그어지게 된다 하지만 경계선 왼쪽의 회색 원들은 실제로는 이상 데이터이기 때문에..

카테고리 없음 2022.12.19