Computer Science/AI(ML, DL, RL, etc)(4)
-
ML에서 특성 스케일 맞추기
Decision Tree나 Random Forest가 아닌 이상, 스케일링은 아주 중요한 작업입니다. 대부분의 ML과 최적화 알고리즘은 특성의 스케일이 비스므리 할때 훨씬 성능이 좋기 때문입니다. 뭔소리냐면, 한 속성은 char타입이고 다른 얘가 int타입이라 치면 range 범위 차이가 장난 아니게 납니다. 그걸 그대로 MSE에 가져다 박는다 치면 알고리즘은 두번째 특성의 영향을 정말로 무지막지하게 받게 될 것입니다. 해서 스케일이 다른 특성을 맞추는 방법으로는 대표적으로 Normalization과 Standardization이 있습니다. 먼저 대부분 정규화의 경우는 특성의 스케일을 [0, 1] 범위에 맞추는 것을 말하는데 - 그냥 min-max Scaling을 생각하면 편합니다. 이 친구는 정해..
2025.12.26 -
ML에서 누락된 데이터를 다루기
실제 데이터를 만지다 보면, 뜬금 없는 이유로 샘플에 값이 텅텅 비어 있는 경우가 있습니다. 아니면 인풋으로 1000Row를 고정해 놨는데, 정작 찍힌건 973개 밖에 없다거나 하는 식으로요...(하필 시계열 데이터여서 이걸 어떻게 해야되나 심각하게 고민했었던 기억이 있네요.) 해서 빌어먹을 누락 데이터를 어떻게 다뤄야 할지 논의좀 해보겠습니다. 일반적으로 누락된 값은 NaN(Not a Number)나 NULL과 같은 값을 사용합니다. 물론 샘플에 이게 박혀 있으면 끔찍하기 따로 없죠. 그래서 방법은 여러가지가 있는데, 일단 무식하게 1. 누락값 샘플 숙청누락 데이터를 다루는 가장 쉬운 방법입니다. df.dropna와 같은 메서드를 사용하여 쉽게 누락값이 있는 행/열(axix=0/1)을 숙청할 수 있습니..
2025.12.25 -
맥컬록-피츠 뉴런/퍼셉트론
AI를 설계하기 위해서 생물학적 모티브를 따와, 맥컬록과 피츠는 간소화된 뉴런의 개념을 발표했다. 이를 맥컬록-피츠 뉴런(MCP)이라고 하며, 추후 얘기하게 될 퍼셉트론이라는 개념의 모티브가 된다. 쨋든 이양반들은 뉴런을 아주 단순하게 생각해서 아래와 같은 간단한 무엇인가를 내놓게 된다. 신경세포는 Na+ K+채널을 써서 재분극이니 탈분극이니 하는 복잡한 과정이 필요한데, 다 던지고 이진 출력을 내는 간단한 논리회로로 표현해 보자.그리고 이게 발전된게 로젠블라트의 퍼셉트론이다. 이걸 좀 형식적으로 얘기하자면, 이전 신경세포에서의 가중치를 w라 치고 입력을 x라 치면 현재 신경세포에서의 출력은 가 될 것이다. 물론 현행 신경 세포도 역치값을 넘겨야지 신호를 전달하게 끔 해야 하므로, 아래와 같은 결정함..
2025.12.18 -
원숭이도 알아 먹을 수 있는 VAE 설명
전형적인 CS계열 학부생의 모습학부연구생 연구에 있어서, VAE가 긴급하게 필요한 상황이라 이 글을 작성하게 되었습니다. 따라서 이 포스트는 ML이나 DL, 확률론에 대한 기본적인 개념 이해가 있다고 가정하고 진행하게 됩니다. (혹여나 오류를 발견한 Ms나 Dr이 있으시다면 양해를 부탁드립니다.) MotivationRef : CS236, Deep Generative Models, Standford University.- 사람의 얼굴을 모아둔 이미지가 있다고 치면, 그 이미지에는 다양한 변수들이 영향을 미쳤을 것이다. 성별, 눈 색깔, 머리 색깔, 포즈, 조명 등등. 그러나 이러한 특성들이 따로 기록되어 있지 아니한 한, 이미지에서 "잠재적으로" 나타날 뿐이다.- 물론 이러한 변수들을 죄다 알 수 있다면 ..
2025.07.01