בשנים האחרונות יש גידול משמעותי בכמות הנתונים המיוצרת בעולם, שהופך לעולם המונע על ידי נתונים (Data Driven World). יחד עם הגידול בנתונים, ישנה עלייה במגוון היישומים מבוססי הנתונים בתחומים השונים: רפואה, מדיה חברתית, פיננסים, תכנון עירוני, רכבים חכמים, ערים חכמות ועוד. לאור זאת, מומחה הנתונים הפך לאחד המקצועות המבוקשים ביותר, המאתגרים ביותר והמתגמלים ביותר בחברות, ונחשב למקצוע העתיד.
מומחה הנתונים נדרש לתת פתרונות מדעיים לאתגרים הכרוכים בעבודה עם כמויות גדולות ומגוונות של נתונים, ביצוע מחקרים להפקת תובנות עסקיות מנתונים עבור הארגון (Business Intelligence), טיוב וסידור המידע המשמש למחקרים, והפעלת אלגוריתמים ומודלים שונים של כריית נתונים ו- Machine Learning על המידע שנאסף.
הכישורים הנדרשים לעולם הנתונים מתמקדים בתהליכים הבאים:
- אינטגרציה – איסוף מידע ממגוון מערכות ועבודה עם כמויות גדולות של מידע (Big Data) ועיבוד מידע לא מובנה (Unstructured).
- חקירה – תכנות וניתוח סטטיסטי, יצירת חיבור בין בסיסי נתונים שונים.
- ניתוח אנליטי – חיזוי, כריית מידע, אופטימיזציה, עיבוד מידע טקסטואלי ואנליזה לנתונים.
- הצגה – פרסום תוצאות על בסיס ניתוח המידע שנאסף.
בתוכנית נכיר את הכלים איתם עובד ה-Data Science בהתבסס על שפת הפיתוח Python. בסיומה, יגישו הסטודנטים עבודת גמר המתבססת על מחקר נתונים הכולל כל שלבי הפיתוח וההטמעה שנלמדו בתכנית.
מטרת התוכנית
התכנית תכין את הסטודנטים להיות מומחי נתונים עם יכולת עבודה עצמאת וכחלק מצוות מולטי דיסציפלינרי. התכנית תספק את הידע ואת הכלים הדרושים כדי לפתח פרויקטים של למידת מכונה (Machine Learning) וליישם אותו במערכות הייצור. בסוף התכנית הסטודנט יהיה מוכנים ל:
- עבודה על פרויקט מדעי נתונים.
- עבודה בסביבה משותפת.
- לכתוב פרוטוקול מחקר לפני תחילת הפרויקט.
- לספק נתונים נקיים ומכנים לאנליזה.
- לפתח מודלים מנבאים בשימוש כלים מתאימים.
- להיות מסוגל לנתח ולבצע בקרת איכות של פרויקטים.
- לכתוב דו"ח סיכום המסביר את המתודולוגיה ששימשה את הפרויקט והמודלים שפותחו יחד עם תקוף המודלים.
- הטמעת המודלים שפותחו והדרכה של משתמשי הקצה לעשות שימוש נכון ומושכל בהם.
יתרונותיה הבולטים של התוכנית
- מיקוד בכלים הנפוצים בתחום, עם התמקדות בשפת התכנות הפופולרית ביותר בתחום-Python:
. SKlearn, PyTorch, Pandas, Transformers (HuggingFace) - קורס דאטה סיינס הינו מעשי במהותו, המשלב יישום תרגולים רבים ובניית פרויקט אישי במקביל לידע התיאורטי הנרכש.
- קורס דאטה סיינס של הטכניון מועבר בהדרכתם של מרצים מובילים וותיקים המאושרים ע"י מוסד הטכניון.
- סביבות תרגול וירטואליות מתקדמות שהוקמו במיוחד לכל מודל.
- ליווי אישי של התלמיד לאורך המסלול.
- תואר ראשון באחד מהתחומים הבאים: מערכות מידע / כימיה / הנדסת תעשיה וניהול / הנדסה ביו רפואית / כלכלה / מנהל עסקים / פיזיקה / מתמטיקה.
- רקע בתכנות – חובה.
- מתאים לבוגרי קורס BI של היחידה ללימודי המשך בעלי תואר ראשון בהתאם לקריטריונים ורקע בתכנות.
- נדרשת אוריינטציה טכנולוגית.
- מעבר מבחן התאמה + ראיון אישי.
- כל המשתתפים יידרשו להשתתף בשלב הרקע המהווה חלק מתוכנית הלימודים (תכנות ב- Python).שלב הרקע יקנה למשתתפים את הידע הנדרש לתכנית הלימודים.
משך הלימודים כ-8 חודשים. המפגשים יתקיימו פעמיים בשבוע בשעות 17:30-21:30.
תכנית הלימודים מורכבת מ-255 שעות אקדמיות.
- תכנות ב-Python
- סטטיסטיקה והסתברות
- למידה סטטיסטית ב- SKlearn ו-Pandas
- למידת מכונה (Machine Learning) ב- SKlearn ו-Pandas
- למידה עמוקה (Learning Deep)-יילמד באמצעות PyTorch ו-(HuggingFace) Transformers
- פרויקט מסכם
מבנה התכנית הלימודים
- שפת Python
- מבוא לשפת Python
- אופרטורים (מספריים, מחרוזות, רשימות, tuples, מערכים)
- פלט וקלט (קריאת וכתיבת קבצים)
- פונקציות
- לולאות
- עבודה עם pip
- עבודה עם סביבה וירטואלית
- תכנות מונחה עצמים (אופציונלי)
- כלים וספריות
- ביצוע עבודת חקר באמצעות Jupyter notebooks
- אירגון וחקר נתונים באמצעות Pandas ,NumPy
- ויזואליזצית נתונים באמצעות matplotlib
ד"ר אריאל מנצורה הוא בעל תואר שלישי בסטטיסטיקה ומדע הנתונים , בעל ניסיון רב של למעלה מ 8 שנים בהוראה של קורסי מדע הנתונים במוסדות אקדמיים שונים. במהלך שנותיו כמרצה, ד"ר מנצורה העביר מגוון רחב של קורסים, תוך התמקדות בנושאים כמו ניתוח נתונים, למידת מכונה, ושיטות סטטיסטיות מתקדמות. ניסיונו המעשי והאקדמי מאפשר לו לחבר בין התיאוריה ליישום ולסייע לתלמידים לפתח מיומנויות חשובות בעולם הScience Data.
בנוסף , ד"ר מנצורה פועל בתחום המחקר היישומי, עם דגש על פיתוח ושיפור שיטות אנליטיות ויישומן בתחומי הכלכלה והמימון.