Data

๋ฐ์ดํ„ฐ ์—”์ง€๋‹ˆ์–ด๋ง ๊ณต๋ถ€(1) - HDFS๋ž€

๋ž˜๋ฆฌ๋ž˜๋ฆฌ 2023. 5. 30. 15:35

1.HDFS์— ๊ด€ํ•˜์—ฌ

Hadoop Distributed File System: ์ˆ˜์‹ญ ํ…Œ๋ผ ๋˜๋Š” ํŽ˜ํƒ€๋ฐ”์ดํŠธ ์ด์ƒ์˜ ๋Œ€์šฉ๋Ÿ‰ ํŒŒ์ผ์„ ๋ถ„์‚ฐ๋œ ์„œ๋ฒ„์— ์ €์žฅ, ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ์„ค๊ณ„๋œ ํŒŒ์ผ ์‹œ์Šคํ…œ.

๊ธฐ์กด์˜ ๋Œ€์šฉ๋Ÿ‰ ํŒŒ์ผ์‹œ์Šคํ…œ๊ณผ์˜ ๊ฐ€์žฅ ํฐ ์ฐจ์ด์ 

→ ์ €์‚ฌ์–‘ ์„œ๋ฒ„๋ฅผ ์ด์šฉํ•ด ์Šคํ† ๋ฆฌ์ง€๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ .

→ HDFS๋ฅผ ์ด์šฉํ•ด ์ˆ˜์‹ญ ํ˜น์€ ์ˆ˜๋ฐฑ ๋Œ€์˜ ์›น ์„œ๋ฒ„๊ธ‰ ์„œ๋ฒ„๋‚˜ ์ €์‚ฌ์–‘ ์„œ๋ฒ„๋ฅผ ๋ฌถ์–ด ํ•˜๋‚˜์˜ ์Šคํ† ๋ฆฌ์ง€ ์ฒ˜๋Ÿผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

→ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์ €์žฅ์ด๋‚˜ ๋ฐฐ์น˜๋กœ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์˜ ์ฒ˜๋ฆฌ๋ฅผ ํ•˜๋Š” ๊ฒฝ์šฐ HDFS๋ฅผ ์ด์šฉํ•ด ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

2.HDFS ์„ค๊ณ„ ๋ชฉํ‘œ

  • ์žฅ์•  ๋ณต๊ตฌ HDFS๋Š” ์žฅ์• ๋ฅผ ๋น ๋ฅธ ์‹œ๊ฐ„์— ๊ฐ์ง€ํ•˜๊ณ , ๋Œ€์ฒ˜ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„/๊ตฌํ˜„ ๋˜์–ด ์žˆ๋‹ค.
  • ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฐฉ์‹์˜ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ HDFS๋Š” ๋žœ๋ค ์ ‘๊ทผ ๋ฐฉ์‹ ๋Œ€์‹  ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฐฉ์‹์œผ๋กœ ๋ฐ์ดํ„ฐ์— ์ ‘๊ทผ ๋˜๋„๋ก ์„ค๊ณ„/๊ตฌํ˜„ ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
    → ๊ทธ๋ž˜์„œ ํด๋ผ์ด์–ธํŠธ๋Š” ๋Š๊น€์—†์ด ์—ฐ์†๋œ ํ๋ฆ„ ๋ฐ์ดํ„ฐ์— ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ์ €์žฅ HDFS๋Š” ํ•˜๋‚˜์˜ ํŒŒ์ผ์ด ๊ธฐ๊ฐ€๋ฐ”์ดํŠธ์—์„œ ํ…Œ๋ผ๋ฐ”์ดํŠธ ๋˜๋Š” ๊ทธ ์ด์ƒ์˜ ํฌ๊ธฐ๋กœ ์ €์žฅ ํ•  ์ˆ˜ ์žˆ๋„๋ก ์„ค๊ณ„๋˜์–ด ์žˆ๋‹ค.
  • ๋ฐ์ดํ„ฐ ๋ฌด๊ฒฐ์„ฑ HDFS์—์„œ๋Š” ํ•œ ๋ฒˆ ์ €์žฅํ•œ ๋ฐ์ดํ„ฐ๋Š” ๋”๋Š” ์ˆ˜์ •ํ•  ์ˆ˜ ์—†๊ณ , ์ผ๊ธฐ๋งŒ ๊ฐ€๋Šฅํ•ด ๋ฐ์ดํ„ฐ ๋ฌด๊ฒฐ์„ฑ์„ ์œ ์ง€ํ•˜๊ฒŒ ๋œ๋‹ค.
    →ํ•˜๋‘ก 2.0 ์•Œ๋ฐ” ๋ฒ„์ „๋ถ€ํ„ฐ ์ €์žฅ๋œ ํŒŒ์ผ์— append๋Š” ๊ฐ€๋Šฅํ•˜๊ฒŒ ์ถ”๊ฐ€/๊ฐœ์„  ๋˜์—ˆ๋‹ค.

3.๋ธ”๋ก ๊ตฌ์กฐ ํŒŒ์ผ ์‹œ์Šคํ…œ

  • ์ €์žฅํ•˜๋Š” ํŒŒ์ผ์€ ํŠน์ • ํฌ๊ธฐ์˜ ๋ธ”๋ก์œผ๋กœ ๋‚˜๋ˆ ์ ธ ๋ถ„์‚ฐ๋œ ์„œ๋ฒ„์— ์ €์žฅ ๋œ๋‹ค.
  • ๋ธ”๋ก ํฌ๊ธฐ๋Š” ๊ธฐ๋ณธ 64MB๋กœ ์„ค์ •๋˜์–ด ์žˆ๊ณ  ๋ณ€๊ฒฝ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
    → ํ•˜๋‘ก2.0๋ถ€ํ„ฐ๋Š” ๊ธฐ๋ณธ ๋ธ”๋ก ํฌ๊ธฐ๋Š” 128MB๋กœ ์ฆ๊ฐ€๋˜์—ˆ๋‹ค.
  • Disk Seek Time ๊ฐ์†Œ
  • ๋„ค์ž„๋…ธ๋“œ์˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๊ฐ์†Œ
    → ๋„ค์ž„๋…ธ๋“œ: ๋ธ”๋ก ์œ„์น˜, ํŒŒ์ผ๋ช…, ๋””๋ ‰ํ† ๋ฆฌ ๊ตฌ์กฐ, ๊ถŒํ•œ ์ •๋ณด์™€ ๊ฐ™์€ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ์ •๋ณด๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅํ•˜๊ณ  ๊ด€๋ฆฌํ•˜๊ฒŒ ๋œ๋‹ค.
  • ํด๋ผ์ด์–ธํŠธ์™€ ๋„ค์ž„๋…ธ๋“œ ํ†ต์‹  ๊ฐ์†Œ
  • ๋ธ”๋ก ๋‹จ์œ„ ํŒŒ์ผ ์ €์žฅ

  • ๊ธฐ๋ณธ์ ์œผ๋กœ ๋ธ”๋ก์„ ๋ณต์ œํ•˜์—ฌ ๋ถ„์‚ฐ ์ €์žฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์„œ๋ฒ„์˜ ๋””์Šคํฌ์— ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒ ๋˜๋”๋ผ๋„ ๋ณต์ œ๋œ ๋ธ”๋ก์„ ์ด์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ„์† ์กฐํšŒ ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

4.๋„ค์ž„๋…ธ๋“œ์™€ ๋ฐ์ดํ„ฐ๋…ธ๋“œ

  • HDFS๋Š” ๋งˆ์Šคํ„ฐ - ์Šฌ๋ ˆ์ด๋ธŒ ๊ตฌ์กฐ
  • ๋งˆ์Šคํ„ฐ ์„œ๋ฒ„ - ๋„ค์ž„ ๋…ธ๋“œ
  • ์Šฌ๋ ˆ์ด๋ธŒ ์„œ๋ฒ„ - ๋ฐ์ดํ„ฐ ๋…ธ๋“œ

5.๋„ค์ž„๋…ธ๋“œ

  • ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ
  • ๋ฐ์ดํ„ฐ๋…ธ๋“œ ๋ชจ๋‹ˆํ„ฐ๋ง 3์ดˆ๋งˆ๋‹ค ํ•˜ํŠธ๋น„ํŠธ ๋ฉ”์„ธ์ง€๋ฅผ ์ „์†กํ•˜๊ณ , ํ•˜ํŠธ๋น„ํŠธ๋Š” ๋ฐ์ดํ„ฐ๋…ธ๋“œ ์ƒํƒœ ์ •๋ณด์™€
    ๋ฐ์ดํ„ฐ๋…ธ๋“œ์— ์ €์žฅ๋˜์–ด ์žˆ๋Š” ๋ธ”๋ก์˜ ๋ชฉ๋ก์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.
  • ๋ธ”๋ก ๊ด€๋ฆฌ ์žฅ์• ๊ฐ€ ๋ฐœ์ƒํ•œ ๋ฐ์ดํ„ฐ๋…ธ๋“œ๋ฅผ ๋ฐœ๊ฒฌํ•˜๋ฉด ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋…ธ๋“œ์˜ ๋ธ”๋ก์„ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ ๋…ธ๋“œ๋กœ ๋ณต์ œํ•œ๋‹ค.
    + ๋ณต์ œ๋ณธ ์ˆ˜๋„ ๊ด€๋ฆฌ
  • ํด๋ผ์ด์–ธํŠธ ์š”์ฒญ ์ ‘์ˆ˜

6.๋ฐ์ดํ„ฐ๋…ธ๋“œ

  • ํด๋ผ์ด์–ธํŠธ๊ฐ€ HDFS์— ์ €์žฅํ•˜๋Š” ํŒŒ์ผ์„ ๋กœ์ปฌ๋””์Šคํฌ์— ์œ ์ง€ํ•˜๋ฉฐ ๋กœ์ปฌ ๋””์Šคํฌ์— ์ €์žฅ๋˜๋Š” ํŒŒ์ผ์€ ๋‘ ์ข…๋ฅ˜๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.
    → ์‹ค์ œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ €์žฅ๋˜์–ด ์žˆ๋Š” ๋กœ์šฐ ๋ฐ์ดํ„ฐ
    → ์ฒดํฌ์„ฌ์ด๋‚˜ ํŒŒ์ผ ์ƒ์„ฑ ์ผ์ž์™€ ๊ฐ™์€ ๋ฉ”ํƒ€ ๋ฐ์ดํ„ฐ๊ฐ€ ์„ค์ •๋˜์–ด ์žˆ๋Š” ํŒŒ์ผ

 


์ฐธ๊ณ ์ž๋ฃŒ

https://www.udemy.com/course/best-hadoop/

https://hoing.io/archives/23070

 

ํ•˜๋‘ก ํ”„๋กœ๊ทธ๋ž˜๋ฐ(4) – ๋น…๋ฐ์ดํ„ฐ – HDFS ํ•˜๋‘ก ๋ถ„์‚ฐ ํŒŒ์ผ ์‹œ์Šคํ…œ(1)

 1. HDFSHDFS(Hadoop Distributed File System) ๋Š” ์ˆ˜์‹ญ ํ…Œ๋ผ ๋˜๋Š” ํŽ˜ํƒ€๋ฐ”์ดํŠธ ์ด์ƒ์˜ ๋Œ€์šฉ๋Ÿ‰ ํŒŒ์ผ์„ ๋ถ„์‚ฐ๋œ ์„œ๋ฒ„์— ์ €์žฅํ•˜๊ณ , ๋งŽ์€ ํด๋ผ์ด์–ธํŠธ๊ฐ€ ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ์„ค๊ณ„๋œ ํŒŒ์ผ ์‹œ์Šค

hoing.io