๋ฐ์ดํฐ ์์ง๋์ด๋ง ๊ณต๋ถ(1) - HDFS๋
1.HDFS์ ๊ดํ์ฌ
Hadoop Distributed File System: ์์ญ ํ ๋ผ ๋๋ ํํ๋ฐ์ดํธ ์ด์์ ๋์ฉ๋ ํ์ผ์ ๋ถ์ฐ๋ ์๋ฒ์ ์ ์ฅ, ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์๊ฒ ์ค๊ณ๋ ํ์ผ ์์คํ .
๊ธฐ์กด์ ๋์ฉ๋ ํ์ผ์์คํ ๊ณผ์ ๊ฐ์ฅ ํฐ ์ฐจ์ด์
→ ์ ์ฌ์ ์๋ฒ๋ฅผ ์ด์ฉํด ์คํ ๋ฆฌ์ง๋ฅผ ๊ตฌ์ฑํ ์ ์๋ค๋ ์ .
→ HDFS๋ฅผ ์ด์ฉํด ์์ญ ํน์ ์๋ฐฑ ๋์ ์น ์๋ฒ๊ธ ์๋ฒ๋ ์ ์ฌ์ ์๋ฒ๋ฅผ ๋ฌถ์ด ํ๋์ ์คํ ๋ฆฌ์ง ์ฒ๋ผ ์ฌ์ฉํ ์ ์๊ฒ ๋๋ค.
→ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ ์ฅ์ด๋ ๋ฐฐ์น๋ก ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ฒ๋ฆฌ๋ฅผ ํ๋ ๊ฒฝ์ฐ HDFS๋ฅผ ์ด์ฉํด ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์ ์๋ค.
2.HDFS ์ค๊ณ ๋ชฉํ
- ์ฅ์ ๋ณต๊ตฌ HDFS๋ ์ฅ์ ๋ฅผ ๋น ๋ฅธ ์๊ฐ์ ๊ฐ์งํ๊ณ , ๋์ฒํ ์ ์๋๋ก ์ค๊ณ/๊ตฌํ ๋์ด ์๋ค.
- ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ ๋ฐ์ดํฐ ์ ๊ทผ HDFS๋ ๋๋ค ์ ๊ทผ ๋ฐฉ์ ๋์ ์คํธ๋ฆฌ๋ฐ ๋ฐฉ์์ผ๋ก ๋ฐ์ดํฐ์ ์ ๊ทผ ๋๋๋ก ์ค๊ณ/๊ตฌํ ๋์ด ์์ต๋๋ค.
→ ๊ทธ๋์ ํด๋ผ์ด์ธํธ๋ ๋๊น์์ด ์ฐ์๋ ํ๋ฆ ๋ฐ์ดํฐ์ ์ ๊ทผํ ์ ์๋ค. - ๋์ฉ๋ ๋ฐ์ดํฐ ์ ์ฅ HDFS๋ ํ๋์ ํ์ผ์ด ๊ธฐ๊ฐ๋ฐ์ดํธ์์ ํ ๋ผ๋ฐ์ดํธ ๋๋ ๊ทธ ์ด์์ ํฌ๊ธฐ๋ก ์ ์ฅ ํ ์ ์๋๋ก ์ค๊ณ๋์ด ์๋ค.
- ๋ฐ์ดํฐ ๋ฌด๊ฒฐ์ฑ HDFS์์๋ ํ ๋ฒ ์ ์ฅํ ๋ฐ์ดํฐ๋ ๋๋ ์์ ํ ์ ์๊ณ , ์ผ๊ธฐ๋ง ๊ฐ๋ฅํด ๋ฐ์ดํฐ ๋ฌด๊ฒฐ์ฑ์ ์ ์งํ๊ฒ ๋๋ค.
→ํ๋ก 2.0 ์๋ฐ ๋ฒ์ ๋ถํฐ ์ ์ฅ๋ ํ์ผ์ append๋ ๊ฐ๋ฅํ๊ฒ ์ถ๊ฐ/๊ฐ์ ๋์๋ค.
3.๋ธ๋ก ๊ตฌ์กฐ ํ์ผ ์์คํ
- ์ ์ฅํ๋ ํ์ผ์ ํน์ ํฌ๊ธฐ์ ๋ธ๋ก์ผ๋ก ๋๋ ์ ธ ๋ถ์ฐ๋ ์๋ฒ์ ์ ์ฅ ๋๋ค.
- ๋ธ๋ก ํฌ๊ธฐ๋ ๊ธฐ๋ณธ 64MB๋ก ์ค์ ๋์ด ์๊ณ ๋ณ๊ฒฝ์ด ๊ฐ๋ฅํ๋ค.
→ ํ๋ก2.0๋ถํฐ๋ ๊ธฐ๋ณธ ๋ธ๋ก ํฌ๊ธฐ๋ 128MB๋ก ์ฆ๊ฐ๋์๋ค. - Disk Seek Time ๊ฐ์
- ๋ค์๋
ธ๋์ ๋ฉํ๋ฐ์ดํฐ ํฌ๊ธฐ ๊ฐ์
→ ๋ค์๋ ธ๋: ๋ธ๋ก ์์น, ํ์ผ๋ช , ๋๋ ํ ๋ฆฌ ๊ตฌ์กฐ, ๊ถํ ์ ๋ณด์ ๊ฐ์ ๋ฉํ๋ฐ์ดํฐ ์ ๋ณด๋ฅผ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ๊ณ ๊ด๋ฆฌํ๊ฒ ๋๋ค. - ํด๋ผ์ด์ธํธ์ ๋ค์๋ ธ๋ ํต์ ๊ฐ์
- ๋ธ๋ก ๋จ์ ํ์ผ ์ ์ฅ
- ๊ธฐ๋ณธ์ ์ผ๋ก ๋ธ๋ก์ ๋ณต์ ํ์ฌ ๋ถ์ฐ ์ ์ฅํ๊ธฐ ๋๋ฌธ์ ์๋ฒ์ ๋์คํฌ์ ๋ฌธ์ ๊ฐ ๋ฐ์ ๋๋๋ผ๋ ๋ณต์ ๋ ๋ธ๋ก์ ์ด์ฉํด ๋ฐ์ดํฐ๋ฅผ ๊ณ์ ์กฐํ ํ ์ ์๊ฒ ๋๋ค.
4.๋ค์๋ ธ๋์ ๋ฐ์ดํฐ๋ ธ๋
- HDFS๋ ๋ง์คํฐ - ์ฌ๋ ์ด๋ธ ๊ตฌ์กฐ
- ๋ง์คํฐ ์๋ฒ - ๋ค์ ๋ ธ๋
- ์ฌ๋ ์ด๋ธ ์๋ฒ - ๋ฐ์ดํฐ ๋ ธ๋
5.๋ค์๋ ธ๋
- ๋ฉํ๋ฐ์ดํฐ ๊ด๋ฆฌ
- ๋ฐ์ดํฐ๋
ธ๋ ๋ชจ๋ํฐ๋ง 3์ด๋ง๋ค ํํธ๋นํธ ๋ฉ์ธ์ง๋ฅผ ์ ์กํ๊ณ , ํํธ๋นํธ๋ ๋ฐ์ดํฐ๋
ธ๋ ์ํ ์ ๋ณด์
๋ฐ์ดํฐ๋ ธ๋์ ์ ์ฅ๋์ด ์๋ ๋ธ๋ก์ ๋ชฉ๋ก์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. - ๋ธ๋ก ๊ด๋ฆฌ ์ฅ์ ๊ฐ ๋ฐ์ํ ๋ฐ์ดํฐ๋
ธ๋๋ฅผ ๋ฐ๊ฒฌํ๋ฉด ํด๋น ๋ฐ์ดํฐ๋
ธ๋์ ๋ธ๋ก์ ์๋ก์ด ๋ฐ์ดํฐ ๋
ธ๋๋ก ๋ณต์ ํ๋ค.
+ ๋ณต์ ๋ณธ ์๋ ๊ด๋ฆฌ - ํด๋ผ์ด์ธํธ ์์ฒญ ์ ์
6.๋ฐ์ดํฐ๋ ธ๋
- ํด๋ผ์ด์ธํธ๊ฐ HDFS์ ์ ์ฅํ๋ ํ์ผ์ ๋ก์ปฌ๋์คํฌ์ ์ ์งํ๋ฉฐ ๋ก์ปฌ ๋์คํฌ์ ์ ์ฅ๋๋ ํ์ผ์ ๋ ์ข
๋ฅ๋ก ๊ตฌ์ฑ๋๋ค.
→ ์ค์ ๋ฐ์ดํฐ๊ฐ ์ ์ฅ๋์ด ์๋ ๋ก์ฐ ๋ฐ์ดํฐ
→ ์ฒดํฌ์ฌ์ด๋ ํ์ผ ์์ฑ ์ผ์์ ๊ฐ์ ๋ฉํ ๋ฐ์ดํฐ๊ฐ ์ค์ ๋์ด ์๋ ํ์ผ
์ฐธ๊ณ ์๋ฃ
https://www.udemy.com/course/best-hadoop/
https://hoing.io/archives/23070
ํ๋ก ํ๋ก๊ทธ๋๋ฐ(4) – ๋น ๋ฐ์ดํฐ – HDFS ํ๋ก ๋ถ์ฐ ํ์ผ ์์คํ (1)
1. HDFSHDFS(Hadoop Distributed File System) ๋ ์์ญ ํ ๋ผ ๋๋ ํํ๋ฐ์ดํธ ์ด์์ ๋์ฉ๋ ํ์ผ์ ๋ถ์ฐ๋ ์๋ฒ์ ์ ์ฅํ๊ณ , ๋ง์ ํด๋ผ์ด์ธํธ๊ฐ ์ ์ฅ๋ ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์๊ฒ ์ค๊ณ๋ ํ์ผ ์์ค
hoing.io