ํšŒ๊ณ ๋ก

[๋ฉ”ํƒ€์ฝ”๋“œ] Spark๋ฅผ ํ™œ์šฉํ•œ Data Engineering (feat. ๊ฐ•์˜ ํ›„๊ธฐ)

zi0_0 2024. 12. 26. 20:44


์•ˆ๋…•ํ•˜์„ธ์š”! 

์ง€๋‚œ ์ฃผ ๋ฉ”ํƒ€์ฝ”๋“œ "Spark๋ฅผ ํ™œ์šฉํ•œ Data Engineering" ๊ฐ•์˜์—  ๋Œ€ํ•ด ์†Œ๊ฐœ๋“œ๋ ธ๋Š”๋ฐ์š”.

 

 

[๋ฉ”ํƒ€์ฝ”๋“œ] Spark๋ฅผ ํ™œ์šฉํ•œ Data Engineering ์ž…๋ฌธ ์‹ค์Šต ๊ฐ•์˜ (feat. ๊ฐ•์˜ ์†Œ๊ฐœ ๋ฐ ์ค‘๊ฐ„ ํ›„๊ธฐ)

์•ˆ๋…•ํ•˜์„ธ์š”! ์ด๋ฒˆ์— ๋ฉ”ํƒ€์ฝ”๋“œ์—์„œ ์ง„ํ–‰ํ•˜๋Š”'Spark๋ฅผ ํ™œ์šฉํ•œ Data Engineering ๊ฐ•์˜' ์žฅํ•™์ƒ์œผ๋กœ ์„ ๋ฐœ๋˜์–ด ์†Œ๊ฐœ๋“œ๋ฆฌ๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.  ๐Ÿ“ ๊ฐ•์˜ ์†Œ๊ฐœ ๋ฐ ์ฃผ์š” ๋‚ด์šฉ ๊ฐ„๋žต ์†Œ๊ฐœ : Spark ์‹ค์Šต ์œ„์ฃผ์˜ ๊ตฌ์„ฑ, ์ตœ

thswldud.tistory.com

 

์˜ค๋Š˜์€ ๊ฐ„๋‹จํ•œ ์ˆ˜๊ฐ• ํ›„๊ธฐ๋ฅผ ๋‚จ๊ธฐ๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. 

 


 

โœ๏ธ ์ˆ˜๊ฐ• ๋‚ด์šฉ ๋ฐ ํ›„๊ธฐ

  • 2๊ฐ• : Spark ๊ตฌ์„ฑ ์š”์†Œ ์ดํ•ดํ•˜๊ธฐ - Databricks ํ™˜๊ฒฝ ์„ค์ •
  • 3๊ฐ• : Spark ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜ ๋ฐ ์ฒ˜๋ฆฌ๋ฒ• - pyspark, spark sql ์‹ค์Šต 

1์žฅ์—๋Š” ์ฃผ๋กœ ๊ฐœ๋… ์œ„์ฃผ์˜ ์„ค๋ช…์ด์—ˆ๋‹ค๋ฉด, 

2์žฅ๋ถ€ํ„ฐ๋Š” Databricks๋ฅผ ํ™œ์šฉํ•œ ์‹ค์Šต์„ ์ง„ํ–‰ํ•˜์˜€๋Š”๋ฐ์š”. 

 

๊ธฐ์กด์— Python์ด๋‚˜ SQL์„ ์‚ฌ์šฉํ•ด๋ณธ ๊ฒฝํ—˜์ด ์žˆ๋‹ค๋ฉด ์–ด๋ ต์ง€ ์•Š๊ฒŒ ๋”ฐ๋ผ๊ฐˆ ์ˆ˜ ์žˆ๋Š” ์ˆ˜์ค€์˜ ์‹ค์Šต์ด์—ˆ์Šต๋‹ˆ๋‹ค. 

์˜ˆ๋ฅผ ๋“ค์–ด, ์ €ํฌ๊ฐ€ ํ”ํžˆ ์•Œ๊ณ  ์žˆ๋Š” Group by๋‚˜ Join๋“ค์˜ ํ•จ์ˆ˜๋ฅผ spark sql๋ฅผ ํ™œ์šฉํ•ด ์–ด๋–ป๊ฒŒ ์‚ฌ์šฉํ•˜๋Š” ์ง€๋ฅผ ๋ฐฐ์› ์Šต๋‹ˆ๋‹ค. 

 

์‚ฌ์‹ค ์—ฌ๊ธฐ๊นŒ์ง€๋Š” ๊ธฐ์กด ์–ธ์–ด์™€ ๋ฌด์—‡์ด ๋‹ค๋ฅธ์ง€ ์ดํ•ด๊ฐ€ ์ž˜ ์•ˆ๋๋Š”๋ฐ์š”. 

Partition์ด๋‚˜ Shuffle๋“ค๋„ ์ถ”๊ฐ€๋กœ ๋ฐฐ์šฐ๊ณ , Spark Optimization ์ •๋„๊นŒ์ง€ ์ˆ˜๊ฐ•ํ•˜๋‹ˆ

๋ถ„์‚ฐํ•ด์„œ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ตฌ๋‚˜~ ์ •๋„๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. 

 

(์‚ฌ์‹ค ์•„์ง ์ž˜ ์ดํ•ดํ•˜์ง€ ๋ชปํ•ด ์ถ”๊ฐ€์ ์ธ ํ•™์Šต์ด ํ•„์š”ํ•  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค..ใ…Žใ…Ž)

 

 

๐ŸŽฏ ๋ชฉํ‘œ 

์‚ฌ์‹ค ์ €๋ฒˆ ์ฃผ๋ง์— ์ข€ ๋งŽ์ด ๋“ค์—ˆ์–ด์•ผ ํ–ˆ๋Š”๋ฐ, ํ• ๋จธ๋‹ˆ ๊ตฌ์ˆœ ์ž”์น˜ ์ด์Šˆ๋กœ ๊ฐ•์˜๋ฅผ ์ข€ ๋ชป ๋”ฐ๋ผ๊ฐ”์—ˆ๋Š”๋ฐ์š”. 

์ด๋ฒˆ์ฃผ ์ฃผ๋ง์— ๋ฐ”์งํ•ด์„œ ์‹ค์ „ ํ”„๋กœ์ ํŠธ๊นŒ์ง€ ๋๋‚ด๋Š”๊ฒŒ ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค!

 

 


 

Spark ๊ฐ•์˜๊ฐ€ ๊ถ๊ธˆํ•˜์‹  ๋ถ„์€ ์•„๋ž˜์˜ ๋ฉ”ํƒ€์ฝ”๋“œ ํ™ˆํŽ˜์ด์ง€๋ฅผ ์ฐธ๊ณ ํ•˜์„ธ์š”!
 

[New] Spark๋ฅผ ํ™œ์šฉํ•œ Data Engineering ์ž…๋ฌธ ์‹ค์Šต ๊ฐ•์˜ | ๋„ค์นด๋ผ์ฟ ๋ฐฐ ํ˜„์ง์ž ๊ฐ•์‚ฌ

 

metacodes.co.kr

 

Copy