نام محصول به انگلیسی | دانلود Data Engineering Essentials using SQL, Python, and PySpark |
---|---|
نام محصول به فارسی | دانلود دوره اصول مهندسی داده با SQL، پایتون و PySpark |
زبان | انگلیسی با زیرنویس فارسی |
نوع محصول | آموزش ویدیویی |
نحوه تحویل | به صورت دانلودی |
این دوره آموزشی دانلودی بوده و همراه با زیرنویس فارسی ارائه میگردد.
حداکثر تا ۲۴ ساعت پس از سفارش، لینک اختصاصی دوره برای شما ساخته و جهت دانلود ارسال خواهد شد.
جهت پیگیری سفارش، میتوانید از طریق واتساپ با شماره 09395106248 یا آیدی تلگرامی @ma_limbs در تماس باشید.
اصول مهندسی داده با SQL، پایتون و PySpark
معرفی دوره
با گسترش حجم دادهها در دنیای امروز، مهندسی داده به یکی از مهمترین مسیرهای شغلی در حوزه فناوری اطلاعات تبدیل شده است. دوره «اصول مهندسی داده با SQL، پایتون و PySpark» به شما کمک میکند تا از مباحث پایهای تا پیشرفتهترین تکنیکهای آمادهسازی، پاکسازی، پردازش و انتقال داده را در قالب یک مسیر جامع فرا بگیرید. این دوره برای دانشجویان، تحلیلگران داده، مهندسان نرمافزار و هر فردی که میخواهد در مسیر دادهمحوری فعالیت کند طراحی شده است.
پیشنیازها
- آشنایی مقدماتی با زبان پایتون (تعریف متغیر، ساختارهای کنترلی، توابع)
- مبانی پایگاه داده و دستورات ابتدایی SQL
- آشنایی با مفاهیم پایهای لینوکس و خط فرمان (ترجیحاً)
- کامپیوتر شخصی با حداقل 8 گیگابایت رم برای اجرای پایگاه داده و PySpark
آنچه در پایان دوره خواهید آموخت
- نحوه طراحی و پیادهسازی Data Pipelineهای مقیاسپذیر
- کار با پایگاه دادههای رابطهای (MySQL، PostgreSQL) و اجرای کوئریهای پیچیده
- پاکسازی و آمادهسازی دادهها با استفاده از کتابخانههای pandas و NumPy
- پردازش توزیعشده داده با فریمورک PySpark
- استفاده از ابزارهای ذخیرهسازی دادههای حجیم همچون HDFS و S3
- بهینهسازی عملکرد کوئری و مدیریت منابع پردازشی
سرفصلهای دوره
دوره به چهار بخش اصلی تقسیم میشود:
- مبانی SQL و طراحی پایگاه داده
- پردازش داده در پایتون: pandas، NumPy و ماژولهای کمکی
- آشنایی با Spark و اکوسیستم آن: Spark SQL، DataFrame و RDD
- ساخت و استقرار Data Pipeline با PySpark و Airflow
بخش اول: مبانی SQL و طراحی پایگاه داده
در این بخش مباحث زیر پوشش داده میشوند:
- ایجاد، بازخوانی، بهروزرسانی و حذف دادهها (CRUD)
- انواع JOINها و کاربرد هر یک
- نمایهسازی و بهینهسازی کوئری
- طراحی نرمالسازی شده
بخش دوم: پردازش داده در پایتون
در این بخش با ابزارهای قدرتمند پایتون برای کار با داده آشنا میشوید:
- pandas برای پاکسازی، ادغام و فیلتر داده
- NumPy برای محاسبات عددی و آرایهها
- matplotlib و seaborn برای مصورسازی اولیه
- ساخت اسکریپتهای اتوماتیک پردازش داده
بخش سوم: پردازش توزیعشده با PySpark
PySpark به عنوان یکی از محبوبترین فریمورکهای پردازش توزیعشده داده در این دوره بررسی میشود:
- مفاهیم RDD و DataFrame
- Spark SQL و اجرای کوئریهای توزیعشده
- بهینهسازی با Catalyst Optimizer
- کار با دادههای حجیم و توزیعشده در HDFS و S3
بخش چهارم: ساخت Data Pipeline و استقرار
پس از تسلط بر ابزارها، نحوه طراحی یک جریان داده کامل را یاد میگیرید:
- معماری ETL/ELT
- استفاده از Apache Airflow برای زمانبندی و مدیریت وظایف
- کانتینرسازی با Docker برای تسهیل استقرار
- مانیتورینگ و لاگبرداری
مثالهای عملی
در طول دوره چند پروژه عملی انجام میدهید:
- پاکسازی لاگهای سرور و تحلیل رفتار کاربران با pandas
- ساخت گزارش عملکرد فروش با ترکیب SQL و PySpark
- پردازش توزیعشده مجموعه دادههای چند ده گیگابایتی
- استقرار یک Data Pipeline کامل روی کلاستر محلی با Docker و Airflow
مزایای شرکت در دوره
- آموزش گام به گام توسط مدرسین متخصص صنعت
- دسترسی مادامالعمر به ویدئوها و منابع
- تمرینهای عملی و پروژه نهایی برای ورود به بازار کار
- پشتیبانی پرسش و پاسخ و رفع اشکال هفتگی
نتیجهگیری
در پایان این دوره، شما قادر خواهید بود تا یک Pipeline کامل داده را از طراحی بانک اطلاعاتی و پاکسازی داده تا پردازش توزیعشده و استقرار خودکار بهصورت حرفهای پیادهسازی کنید. این مهارتها در صنایع فناوری، مالی، تبلیغات آنلاین، سلامت و بسیاری دیگر از حوزهها کاربرد گسترده دارد و میتواند جهشی بزرگ در مسیر شغلی شما ایجاد کند.
نقد و بررسیها
هنوز بررسیای ثبت نشده است.