(Reading 07) Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark

Learn/'24_Fall_(EE542) Internet&Cloud Computin

(Reading 07) Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark

QBBong 2025. 1. 9. 08:39

728x90

요약: Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark

이 논문은 Hadoop과 Spark를 비교하여 반복 연산(iterative operations) 성능을 시간과 메모리 관점에서 분석한다. 특히 PageRank 알고리즘을 사용하여 두 시스템의 처리 속도, 메모리 소비, 확장성 등을 평가하며, 각 플랫폼이 특정 시나리오에서 가지는 장단점을 논의한다.

주요 내용

1. 연구 배경:

• 반복 연산은 데이터 과학, 기계 학습, 그래프 분석 등에서 자주 발생하며, 이 과정에서 효율적인 데이터 처리 요구가 높아짐.

• Hadoop은 디스크 기반 데이터 접근으로 반복 작업에서 성능 저하를 겪는 반면, Spark는 **Resilient Distributed Datasets (RDDs)**를 통해 메모리에 데이터를 캐시하여 성능을 향상시킴.

2. 실험 환경 및 데이터 세트:

• 8개의 노드로 구성된 클러스터에서 실험 진행.

• 10개의 그래프 데이터 세트(실제 데이터와 합성 데이터) 사용.

• 각 실험은 5회의 PageRank 반복으로 실행.

3. 실험 결과:

• 성능 비교:

• 작은 데이터 세트: Spark가 Hadoop보다 최대 40배 빠름.

• 중간 크기 데이터 세트: Spark가 10~15배 빠름.

• 큰 데이터 세트: Spark가 3~5배 빠르지만, 메모리 부족 시 Spark의 이점 감소.

• 매우 큰 데이터 세트: Spark는 메모리 부족으로 충돌하는 반면, Hadoop은 안정적으로 실행.

• 메모리 소비 비교:

• Hadoop: 반복 연산 사이에 메모리를 주기적으로 해제.

• Spark: RDD의 읽기 전용 특성으로 인해 메모리 소비가 지속적으로 증가하며, 대규모 데이터 세트에서는 메모리 부족 문제 발생.

4. 결론 및 권장사항:

• Spark는 반복 연산에서 속도 이점이 있지만, 충분한 메모리가 필요.

• 메모리 제한이 있는 경우 Hadoop이 더 안정적이고 비용 효율적.

• 특정 알고리즘과 데이터 세트 크기에 따라 플랫폼 선택 필요.

5. 미래 연구:

• Spark에서 메모리 사용량과 실행 시간 간의 상관 관계를 예측하는 모델 개발.

• 그래프 구조가 성능에 미치는 영향 탐구.

728x90

'Learn > '24_Fall_(EE542) Internet&Cloud Computin' 카테고리의 다른 글

(Reading 09) RDMA Over Converged Ethernet: A Review (0)	2025.01.09
(Reading 08) The QUIC Transport Protocol: Design and Internet-Scale Deployment (0)	2025.01.09
(Reading 06) A High-Performance, Portable Implementation of the MPI Message Passing Interface Standard (0)	2025.01.09
(Reading 05) UNO: Unifying Host and Smart NIC Offload for Flexible Packet Processing (0)	2025.01.09
(Reading 04) Forward Acknowledgment: Refining TCP Congestion Control (0)	2025.01.09

현재글(Reading 07) Memory or Time: Performance Evaluation for Iterative Operation on Hadoop and Spark

BBong's Story

놀고, 먹고, 일하고, 만들고, 배우고

250x250

혼잡 제어, 뉴욕 여행, 미국로드트립, 데이터 분석, 클라우드 네트워크, 가족여행, Iot, 미국여행, FPGA, 로드트립, 네트워크 성능, roce, TCP, thingsboard io, rdma, 주니어 레인저, 불헤드 시티, 클라우드 컴퓨팅, 핫스프링스, AWS,

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

BBong's Story