์๋
ํ์ธ์!
์ง๋ ์ฃผ ๋ฉํ์ฝ๋ "Spark๋ฅผ ํ์ฉํ Data Engineering" ๊ฐ์์ ๋ํด ์๊ฐ๋๋ ธ๋๋ฐ์.
์ค๋์ ๊ฐ๋จํ ์๊ฐ ํ๊ธฐ๋ฅผ ๋จ๊ธฐ๊ณ ์ ํฉ๋๋ค.
โ๏ธ ์๊ฐ ๋ด์ฉ ๋ฐ ํ๊ธฐ
- 2๊ฐ : Spark ๊ตฌ์ฑ ์์ ์ดํดํ๊ธฐ - Databricks ํ๊ฒฝ ์ค์
- 3๊ฐ : Spark ๋ฐ์ดํฐ ์ข ๋ฅ ๋ฐ ์ฒ๋ฆฌ๋ฒ - pyspark, spark sql ์ค์ต
1์ฅ์๋ ์ฃผ๋ก ๊ฐ๋ ์์ฃผ์ ์ค๋ช ์ด์๋ค๋ฉด,
2์ฅ๋ถํฐ๋ Databricks๋ฅผ ํ์ฉํ ์ค์ต์ ์งํํ์๋๋ฐ์.
๊ธฐ์กด์ Python์ด๋ SQL์ ์ฌ์ฉํด๋ณธ ๊ฒฝํ์ด ์๋ค๋ฉด ์ด๋ ต์ง ์๊ฒ ๋ฐ๋ผ๊ฐ ์ ์๋ ์์ค์ ์ค์ต์ด์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์ ํฌ๊ฐ ํํ ์๊ณ ์๋ Group by๋ Join๋ค์ ํจ์๋ฅผ spark sql๋ฅผ ํ์ฉํด ์ด๋ป๊ฒ ์ฌ์ฉํ๋ ์ง๋ฅผ ๋ฐฐ์ ์ต๋๋ค.
์ฌ์ค ์ฌ๊ธฐ๊น์ง๋ ๊ธฐ์กด ์ธ์ด์ ๋ฌด์์ด ๋ค๋ฅธ์ง ์ดํด๊ฐ ์ ์๋๋๋ฐ์.
Partition์ด๋ Shuffle๋ค๋ ์ถ๊ฐ๋ก ๋ฐฐ์ฐ๊ณ , Spark Optimization ์ ๋๊น์ง ์๊ฐํ๋
๋ถ์ฐํด์ ์ฒ๋ฆฌํ๋ ๊ตฌ๋~ ์ ๋๋ฅผ ์ดํดํ ์ ์์์ต๋๋ค.
(์ฌ์ค ์์ง ์ ์ดํดํ์ง ๋ชปํด ์ถ๊ฐ์ ์ธ ํ์ต์ด ํ์ํ ๊ฒ ๊ฐ์ต๋๋ค..ใ ใ )
๐ฏ ๋ชฉํ
์ฌ์ค ์ ๋ฒ ์ฃผ๋ง์ ์ข ๋ง์ด ๋ค์์ด์ผ ํ๋๋ฐ, ํ ๋จธ๋ ๊ตฌ์ ์์น ์ด์๋ก ๊ฐ์๋ฅผ ์ข ๋ชป ๋ฐ๋ผ๊ฐ์๋๋ฐ์.
์ด๋ฒ์ฃผ ์ฃผ๋ง์ ๋ฐ์งํด์ ์ค์ ํ๋ก์ ํธ๊น์ง ๋๋ด๋๊ฒ ๋ชฉํ์ ๋๋ค!
Spark ๊ฐ์๊ฐ ๊ถ๊ธํ์ ๋ถ์ ์๋์ ๋ฉํ์ฝ๋ ํํ์ด์ง๋ฅผ ์ฐธ๊ณ ํ์ธ์!