Learn/'24_Fall_(EE542) Internet&Cloud Computin

(Lecture 18) Machine Learning

QBBong 2025. 1. 9. 03:15
728x90

강의 요약: EE542 Lecture 18 - Machine Learning

 

이번 강의는 머신러닝(Machine Learning) 기술의 기초부터 응용까지 다루며, 데이터 수집, 전처리, 학습 알고리즘, 그리고 실제 응용 사례를 중심으로 설명한다. 특히, 하드웨어 가속기(FPGA)를 활용한 문서 처리와 데이터 분석, 그리고 머신러닝 알고리즘의 한계와 교훈에 대해 다룬다. 인터넷 클라우드 과목에 왠 머신러닝인가 싶지만, 이미 컴퓨터 관련된 모든 과목에서 머신러닝, AI를 빼고는 말하기 힘든 수준에 온것 같다. 어떤 과목이든 한번씩은 언급하게 되는것 같다.

 


주요 내용

 

1. 머신러닝의 필요성

  • 복잡한 문제 해결을 위해 데이터를 기반으로 학습.

   실세계 문제를 해결하기 위한 모델 기반 결과 도출.

   주요 요건:

     데이터 수집(xDot, Gateway, Node-RED).

     Amazon Web Services(AWS) 및 Thingsboard 활용.

     데이터 분석 및 학습 결과 기반 추론.

 

2. 머신러닝의 일반적인 오해

   Myth #1: 머신이 자율적으로 학습한다.

     실제로는 프로그래머가 학습 구조를 설계하고 데이터를 제공해야 함.

   Myth #2: 머신은 인간처럼 학습한다.

     인간은 데이터가 적어도 학습 가능하지만, 머신은 대량의 데이터가 필요.

   Myth #3: 모든 작업에 머신러닝 적용 가능.

     데이터가 충분히 있는 경우에만 유효하며, 특정 응용에 제한적.

 

3. 머신러닝 접근 방식

   지도 학습 (Supervised Learning):

     입력 데이터와 레이블 데이터를 사용하여 모델 학습.

   비지도 학습 (Unsupervised Learning):

     클러스터링, 차원 축소, 주제 발견 등.

   하드웨어 가속기 활용:

     실시간 데이터 처리 및 주제 발견.

 

4. 하드웨어 가속기(FPGA)를 활용한 문서 처리

   GVS-1000 플랫폼:

     스택 가능한 FPGA 카드 기반 시스템.

     고성능 처리: 2.4Gbps 이상.

     저지연 및 높은 정확도(99.8% 이상).

   문서 처리 예제:

     HTML 및 이메일 데이터를 처리하여 주요 토픽 필터링.

     언어 식별 및 클러스터링.

 

5. 문법 기반 데이터 분석

   HTML 태그와 주석을 기반으로 문서 구조 파싱.

   컨텍스트 자유 문법 (CFG):

     태그와 문자열을 분석하여 구조화된 데이터로 변환.

 

6. 문서 분류

   문서를 4000개의 수치 벡터로 변환하고, 동적 범위를 4비트로 제한.

   벡터 유사성을 기반으로 문서 간 유사도 계산.

 

7. 클러스터링과 개념 변화

   계층적 클러스터링:

     문서 삽입, 삭제, 배치 클러스터링.

     오버랩 문서 제거 및 캐싱 활용.

   개념 변화(Concept Drift):

     데이터의 지속적인 변화에 대응하는 방법 필요.

 

8. 결과

   K-means와 스트리밍 계층적 클러스터링 비교:

   K-means: 많은 클러스터가 노이즈 데이터로 지배됨.

   스트리밍 계층적 클러스터링: 의미 있는 개념 발견, 노이즈 최소화.

 

9. 교훈

   질 좋은 데이터 필요:

     데이터 전처리가 학습 성능에 중요.

   오류 데이터의 영향:

     잘못된 데이터는 성능 저하를 초래하므로 적은 양이라도 신뢰할 수 있는 데이터가 중요.


요약

 

이 강의는 머신러닝의 기본 개념과 FPGA 기반 데이터 처리 및 분석의 실제 사례를 중심으로 설명한다. 클러스터링 및 문서 분류는 머신러닝이 빅데이터 환경에서 효과적으로 사용될 수 있음을 보여준다.

728x90
반응형