Это специалист, который обрабатывает большие объемы неструктурированной информации и превращает ее в упорядоченный набор данных. Дата-сайентист может:
Кто такой Data Scientist
Предсказать, окупится ли новый проект Оценить будущий спрос на товары и услуги Улучшить системы рекомендаций в соцсетях и сервисах Создать приборы для автоматической постановки диагноза пациенту Усовершенствовать транспортное движение Построить систему распознавания лиц
Дата-сайентист использует методы науки о данных (Data Science), строит и тестирует математические модели. Он находит закономерности, дает прогнозы и предлагает лучшие решения в разных сферах.
Как Data Science применяется в жизни
Специалисты подразделения Google AI, занимающегося искусственным интеллектом, создали модель глубокого обучения (Deep Learning) для распознавания кожных болезней. DL-модель может диагностировать 26 болезней кожи с точностью 97%.
Компания Frontier Development Lab вместе со студентами из разных стран и специалистами Nvidia разработала алгоритм, способный создать 3D-модель астероида за четыре дня. Этот метод используют сегодня для моделирования формы астероидов в реальном времени. А NASA применяет алгоритм визуализации данных о космическом мусоре.
Компания Google создала приложение, которое позволяет слабовидящим и слепым узнавать об объектах рядом с ними — оно в реальном времени распознает на изображении с камеры объекты и передает информацию пользователю. Еще оно умеет зачитывать текст, знаки, штрихкоды и другие визуальные объекты.
Ритейл, киберспорт, путешествия, образование, медицина — грамотный Data Scientist нужен практически в любой индустрии, а спрос значительно превышает предложение.
Получите доступ к онлайн-курсу
Почему пора присмотреться к IT-специальностям
Старт без долгого обучения
Высокая востребованность
В сфере IT можно преуспеть без профильного высшего образования. По данным rabota.by на январь 2025 год, более 60% разработчиков и программистов не имеют диплома IT-специалиста.
В Беларуси IT-специалисты нужны во многих сферах — например, в банках, крупных торговых сетях, производственных компаниях.
Новичок
Проходить онлайн-курс о науке данных можно с нуля. Вы начнете с SQL и Python. Получите необходимые знания по математике, статистике и теории вероятности и отработаете их на практике.
Программист
Освоите работу с моделями машинного обучения и анализ данных на Python, прокачаете аналитическое мышление.
Вам подойдет онлайн-курс Skillfactory, если вы
Аналитик
Начнете анализировать данные на продвинутом уровне, автоматизировать процесс сбора данных. Будете обучать модели и делать прогнозы, а также применять это для решения бизнес-задач.
После онлайн-курсов пользователи в среднем зарабатывают 6 300 BYN
Развивайте навыки и повышайте свою ценность
Senior-специалист в иностранной компании
Middle-специалист
14 000 BYN+
Junior-специалист
Senior-специалист
6 300 BYN
* По данным rabota.by на январь 2025 года
2 800 BYN
10 500 BYN
Что вы освоите
После прохождения базовой части онлайн-курса вы сможете выбрать более узкое направление в Data Science: ML Engineer или CV Engineer.
Разработаете модель предсказания кредитного рейтинга
Решите задачу классификации спама СМС-сообщений
Разработаете систему рекомендаций подходящих товаров при покупке
Построите модель для увеличения продаж в розничном бизнесе
Создадите изображения по текстовому описанию с помощью нейросети DALL-E
ML Engineer — Разработчик машинного обучения
Сможете решать все базовые задачи в сфере Computer Vision
Приобретете знание реального флоу работы с моделями CV, актуальных подходов и продвинутых инструментов, необходимых для создания CV-сервисов
В итоговом проекте создадите виртуального коуча, способного оценивать правильность выполнения упражнений на видео
Как компании ищут соискателей. Узнаете, каких кандидатов предпочитают и как попасть в компанию мечты.
Как создать резюме, которое зацепит внимание работодателя и подсветит ваши достоинства
Как проходить интервью с IT-рекрутерами и HR-менеджерами. Получите обратную связь и поймете, как перейти на следующий этап отбора.
Как разработать карьерную стратегию. И сформируете план, который приведет к цели.
Здесь готовятся покорять сферу IT:
9000+ пользователей Skillfactory прокачали карьеру
Знакомятся с трендами и перспективами рынка.
Узнают о карьерных мероприятиях и вакансиях.
Объединяются в команды для участия в хакатонах
Ищут единомышленников для проектов.
Обмениваются опытом трудоустройства: делятся тестовыми заданиями и вопросами технических интервью.
Онлайн-курсы Skillfactory специализируются на Data Science, аналитике данных и программировании
Фокус на инженерных специальностях помогает постоянно наращивать экспертизу и совершенствовать программу.
9из 10
так наши пользователи оценивают качество наших материалов
Гибкий формат онлайн-курса
Можно проходить из любой точки мира в удобном для вас графике
Авторские программы от экспертов из крупных IT-компаний
Разные онлайн-форматы для максимальной эффективности
по данным внутреннего исследования пользователей Skillfactory
Эффективный формат прохождения онлайн-курса
Изучайте онлайн-курс в своем темпе
Онлайн-курс Skillfactory ориентирован на тех, кто хочет управлять своим графиком. Проходите онлайн-курс без отрыва от работы и выделяйте на прохождение столько времени, сколько можете, — 15 минут или 2 часа в день.
20% материала — интересная и важная теория
Теория разбита на короткие блоки, после которых обязательно идет практика. Вы смотрите короткие видео, изучаете текстовые материалы и приступаете к заданиям, чтобы закрепить знания.
80% онлайн-курса — практика в разных форматах
Для развития навыков на онлайн-курсе Skillfactory есть 5 видов практики: тренажеры, тесты, занятия, проекты и хакатоны. Разнообразие форматов помогает усваивать знания эффективнее.
Менторы и координаторы помогут пройти онлайн-курс до конца
Все менторы — опытные практики из IT-индустрии. Они дают качественную обратную связь по заданиям, отвечают на вопросы и помогают достичь целей. Пользователи, прошедшие курс, оценивают менторскую поддержку на 9,1 балла из 10.
Координаторы решат любой организационный вопрос, связанный с прохождением онлайн-курса. Их задача — мотивировать и помочь пройти его до конца.
Материалы о трудоустройстве
В специальном модуле вы узнаете, как оформить резюме, подготовиться к собеседованиям и выйти на рынок труда.
Не важно, сколько вам лет и какой у вас опыт, — вы справитесь.
Просто следуйте программе онлайн-курса
Мини-курс по нейросетям в подарок новым студентам
БАЗА
На этом этапе вы изучите основы программирования на Python, узнаете, как предобрабатывать и анализировать данные, а также познакомитесь с основными задачами дата-сайентиста.
Программа онлайн-курса по направлению Data Science
Введение
1 неделя
Вы сможете сформулировать для себя реальные цели онлайн-курса, узнаете, в чем ценность DS для бизнеса, познакомитесь с основными задачами дата-сайентиста и разберетесь, как строится разработка любого DS-проекта.
INTRO-1. Как проходить онлайн-курс эффективно — онбординг
INTRO-2. Обзор направления. Типы задач в Data Science. Этапы и подходы к разработке Data Science проекта
Проектирование разработки
5 недель
Вы изучите работу с основными типами данных с помощью языка Python и сможете применять в повседневной работе циклические конструкции, условные операторы и функции.
PYTHON-1. Основы Python
PYTHON-2. Погружение в типы данных
PYTHON-3. Условные операторы
PYTHON-4. Циклы
PYTHON-5. Функции и функциональное программирование
PYTHON-6. Практика
PYTHON-7. Гид по стилю в среде Python (бонусный)
Работа с данными
8 недель
На этом этапе вы овладеете базовыми навыками работы с данными: сможете подготавливать, очищать и преобразовывать данные так, чтобы они были пригодны для анализа. Кстати, об анализе: вы будете анализировать данные с помощью популярных библиотек Matplotlib, Seaborn, Plotly.
PYTHON-8. Инструменты Data Science
PYTHON-9. Библиотека NumPy
PYTHON-10. Введение в Pandas
PYTHON-11. Базовые приемы работы с данными в Pandas
PYTHON-12. Продвинутые приемы работы с данными в Pandas
PYTHON-13. Очистка данных
PYTHON-14. Визуализация данных
PYTHON-15. Принципы ООП в Python и отладка кода (дополнительный модуль)
Проект 1. Аналитика датасета по закрытым вопросам
Подгрузка данных
6 недель
Вы сможете выгружать данные из разных форматов и источников. А поможет вам в этом SQL — язык структурированных запросов. Вы будете использовать агрегатные функции, соединения таблиц и сложные объединения.
PYTHON-16. Как выгружать данные из файлов разных форматов
PYTHON-17. Получение данных из веб-источников и API
SQL-0. Привет, SQL!
SQL-1. Основы SQL
SQL-2. Агрегатные функции
SQL-3. Соединение таблиц
SQL-4. Сложные объединения
Проект 2. Подгрузка новых данных. Уточнение анализа
Статистический анализ данных
7 недель
Разведывательный анализ данных (EDA) — вот, что окажется в центре вашего внимания. Вы познакомитесь со всеми этапами такого анализа и будете проводить его с помощью библиотек Statsmodels, Scikit Learn, Seaborn, Matplotlib, SciPy, Pandas. Кроме того, вам удастся поработать на Kaggle, популярном сервисе по участию в соревнованиях.
EDA-1. Введение в разведывательный анализ данных. Алгоритмы и методы EDA
EDA-2. Математическая статистика в контексте EDA. Типы признаков
EDA-3. Проектирование признаков (Feature Engineering)
EDA-4. Статистический анализ данных на Питоне
EDA-5. Статистический анализ данных на Питоне. Часть 2
EDA-6. Проектирование экспериментов
EDA-7. Площадка Kaggle
Проект 2
Введение в машинное обучение
9 недель
Вы познакомитесь с ML-библиотеками для моделирования зависимостей в данных. Вы сможете обучить основные виды ML-моделей, провести валидацию, интерпретировать результаты работы и выбрать важные признаки (feature importance).
ML-1. Теория машинного обучения
ML-2. Обучение с учителем: регрессия
ML-3. Обучение с учителем: классификация
ML-4. Обучение без учителя: кластеризация и техники снижения размерности
ML-5. Валидация данных и оценка модели
ML-6. Отбор и селекция признаков
ML-7. Оптимизация гиперпараметров модели
ML-8. ML Cookbook
Проект 3. Задача классификации
ОСНОВНОЙ БЛОК
Линейная алгебра, математический анализ, дискретная математика — звучит страшно, но не пугайтесь: разберем все эти предметы и научим с ними работать! На втором этапе вы погрузитесь в математику и основы машинного обучения, узнаете больше о профессиях DS, а также благодаря профориентации выберете трек обучения второго года.
Математика и машинное обучение. Часть 1
6 недель
Вы сможете решать практические задачи с помощью ручного счета и Python (векторные и матричные вычисления, работа с множествами, исследование функций с помощью дифференциального анализа).
MATH&ML-1. Линейная алгебра в контексте Линейных методов. Часть 1
MATH&ML-2. Линейная алгебра в контексте Линейных методов. Часть 2
MATH&ML-3. Математический анализ в контексте задачи оптимизации. Часть 1
MATH&ML-4. Математический анализ в контексте задачи оптимизации. Часть 2
MATH&ML-5. Математический анализ в контексте задачи оптимизации. Часть 3
Проект 4. Задача регрессии
Математика и машинное обучение. Часть 2
6 недель
Вы познакомитесь с основными понятиями теории вероятности и математической статистики, алгоритмами кластеризации, а также сможете оценивать качество произведенной кластеризации и представлять результаты в графическом виде.
MATH&ML-6. Теория вероятностей в контексте наивного байесовского классификатора
MATH&ML-7. Алгоритмы на основе деревьев решений
MATH&ML-8. Бустинг & Стекинг
MATH&ML-9. Кластеризация и техники снижения размерности. Часть 1
MATH&ML-10. Кластеризация и техники снижения размерности. Часть 2
Проект 5. Ансамблевые методы
ML в бизнесе
8 недель
Вы будете использовать ML-библиотеки для решения задачи временных рядов и рекомендательных систем. Вы сможете обучить ML-модель и провести ее валидацию, а также создать работающий прототип и запустить модель в веб-интерфейсе. А еще получите навыки A/B-тестирования, чтобы можно было оценить модель.
MATH&ML-11. Временные ряды. Часть 1
MATH&ML-12. Временные ряды. Часть 2
MATH&ML-13. Рекомендательные системы. Часть 1
MATH&ML-14. Рекомендательные системы. Часть 2
PROD-1. Подготовка модели к Production
PROD-2. Прототип Streamlit+Heroku
PROD-3. Бизнес-понимание. Кейс
Проект 6. Тема на выбор: временные ряды или рекомендательные системы
УРОВЕНЬ PRO
На третьем этапе вы познакомитесь с одним из методов машинного обучения — глубоким обучением (DL). А также вас ждет полноценный блок выбранной специализации: вы можете освоить навыки машинного обучения (ML), познакомиться с рутиной CV (компьютерного зрения).
Второй год обучения — 2 направления на выбор
Выбор направления
10 недель
ML или CV: на этом этапе вам предстоит решить, по какому пути двигаться дальше. Мы расскажем о каждом направлении и предложим решить несколько практических задач, чтобы вам было проще определиться.
Трек ML-инженер
29 недель
В ML-треке вы научитесь решать углубленные задачи машинного обучения, овладеете компетенциями дата-инженера, отточите навык работы с библиотеками Python. Также вы научитесь создавать MVP (минимально жизнеспособную версию продукта), узнаете все тонкости вывода ML-модели в продакшн и узнаете, как работают ML-инженеры в реальной жизни.
Введение в Deep Learning
Основы Data Engineering
Дополнительные главы Python и ML
Экономическая оценка эффектов и разработка MVP
ML в Production
Углубленное изучение ML-разработки и выпускной проект по выбранной теме
Трек CV-инженер
29 недель
На CV-треке вы научитесь решать такие задачи компьютерного зрения, как классификация изображений, сегментация и детекция, генерация и стилизация картинок, восстановление и повышение качества фотографий. Кроме того, вы узнаете, как выкатывать нейронные сети в продакшн.
Введение в Deep Learning
Основы Data Engineering
Дополнительные главы Python и ML
Экономическая оценка эффектов и разработка MVP
ML в Production
Углубленное изучение ML-разработки и выпускной проект по выбранной теме
Deep Learning и нейронные сети
БОНУС
Где применяются нейросети? Как обучить нейронную сеть? Что такое Deep Learning? Ответы на эти вопросы вы узнаете в бонусном разделе DL.
Введение в Data Engineering
БОНУС
Вы узнаете, в чем различие ролей дата-сайентиста и дата-инженера, какими инструментами пользуется последний в своей работе, какие задачи ежедневно решает. Слова «снежинка», «звезда» и «озеро» обретут новые значения :)
После освоения материалов вы получите
Сертификат о прохождении онлайн-курса
Он позволит чувствовать себя увереннее при трудоустройстве — работодатели отметят подтверждение квалификации официальным документом
Сертификат может быть дублирован на английском языке
Спикеры и авторы курса
Ведущий автор программы
Senior ML Engineer, МТС
Алек Леков
Основные компетенции: временные ряды, Deep Learning и нейронные сети. Занимается консалтингом в сфере AI
Эмиль Магеррамов
Руководитель группы вычислительной химии в BIOCAD. Создает сервисы и модели машинного обучения, которые помогают химикам быстрее выпускать лекарства
Ведущий автор разделов ML и DS
Маргарита Бурова
Эксперт по Data Science Компетенции: Python, машинное обучение, статистика, анализ данных
Ведущий автор раздела MATH&ML
Юлия Мочалова
Эксперт по Data Science Компетенции: DS(ML), DE, Big Data
Автор раздела курса
Спикеры и авторы
Автор раздела курса
Михаил Баранов
Эксперт по Data Science. Компетенции: машинное обучение, большие данные, Python
Александр Рыжков
Руководитель команды LightAutoML Kaggle Grandmaster. Компетенции: ML/DS, Python, математика, статистика, Kaggle
Автор раздела про KAGGLE
Екатерина Трофимова
Исследователь лаборатории методов анализа больших данных, факультет компьютерных наук НИУ ВШЭ. Компетенции: Python, PyTorch, CV, GNN
Автор модулей по EDA
Антон Киселев
Head of Marketing Analytics, Playrix. Эксперт по данным с опытом 15+ лет. Компетенции: Data Science
ведущий автор раздела «Введение в DS»
Андрей Рысистов
Эксперт DS, преподаватель Skillfactory, автор курсов, автор и соавтор нескольких научных исследований и работ. Сфера интересов — искусственный интеллект в авиационных технических системах
Автор модулей по Python и ML
Стажер в команде ML Циан + ментор SF
Мария Жарова
Владимир Горюнов
Ментор SkillFactory на курсах Data Science, Data Engineering и Fullstack-разработчик на Python
Елена Мартынова
Компетенции: BI, SQL, Python, аналитика
Ментор SkillFactory
Леонид Саночкин
Научный сотрудник AIRI. 10+ лет занимается исследованиями в области NLP
Ментор по NLP
Менторы
Ваше резюме после онлайн-курса
Иван Петров
Data Scientist
от 2 800 BYN
Использую основные алгоритмические конструкции и структуры данных Python для проектирования алгоритмов
Умею получать данные из веб-источников или по API
Умею визуализировать данные с помощью Pandas, Matplotlib
Умею создавать модели с помощью классического машинного и глубокого обучения для решения задач Data Science
Умею оценивать качество модели вне зависимости от задачи
Применяю методы математического анализа, линейной алгебры, статистики и теории вероятности для обработки данных
Строю математические и ML-модели с использованием временных рядов
Применяю алгоритмы для рекомендательных систем (от ассоциативных правил до advanced-алгоритмов)
Специализируюсь на ML/CV/NLP-инженерии (в зависимости от выбранной специализации), применяю современные продвинутые модели для решения отдельных задач
Умею конвертировать бизнес-задачи в технические и наоборот
Умею выводить и поддерживать модели в Production с учетом специфики выбранной специализации
Обладаю дополнительными компетенциями в зависимости от выбранного майнора (продвинутый SQL, продвинутый Python, Reinforcement Learning или Data Engineering)
Python
SQL
Plotly
Seaborn
NumPy
Pandas
API
Matplotlib
Github
Kaggle
Hadoop
Инструменты:
Высокоуровневый, эффективный, простой и универсальный язык программирования. У него интуитивно понятный синтаксис, поэтому подходит для изучения новичкам.
Структурированный язык запросов, созданный, чтобы получать из базы данных необходимую информацию.
Библиотека с открытым исходным кодом для Python и R, которая подходит для создания красивых и интерактивных визуализаций.
Библиотека для визуализации данных в Python, которая интегрируется со структурами данных из Pandas. Позволяет строить разные статистические графики.
Это библиотека Python, которую применяют для математических вычислений — от базовых функций до линейной алгебры.
Библиотека Python для обработки и анализа структурированных данных. Панельными данными называют информацию, полученную в результате исследований и структурированную в виде таблиц.
Способ обмена информацией между сайтами, программами и приложениями. Можно сказать, что это набор правил, по которым осуществляется такой обмен.
Библиотека на языке Python для визуализации данных. В ней можно построить двумерные и трехмерные графики.
Сервис для совместной разработки и хостинга проектов. C его помощью над кодом может работать неограниченное количество программистов из разных стран.
Сервис для специалистов по Data Science. В нем можно изучать машинное обучение, писать свои и разбирать чужие прогнозные модели, участвовать в соревнованиях и общаться с дата-сайентистами.
Это программная платформа для сбора, хранения и обработки больших объемов данных. Проще говоря, это база данных (database), предназначенная для работы с большими данными (Big Data).
7 000+
пользователей уже прошли онлайн-курсы у Skillfactory Присоединяйтесь!
Получите доступ к онлайн-курсу
Стоимость онлайн-курса
при рассрочке на 36 месяцев без первоначального взноса и переплат
226 BYN/мес
411 BYN/мес
-45%
Получите доступ
Пройдете базовую часть онлайн-курса и сможете выбрать более узкое направление в Data Science: ML Engineer или CV Engineer
Помощь координаторов в решении организационных вопросов
Интерактивные вебинары
Доступ к материалам онлайн-курса
Часто задаваемые вопросы
С помощью обучающих алгоритмов машинного обучения можно научить программы делать что угодно:
1. Предлагать дополнительные товары, которые пользователь купит с наибольшей вероятностью, на основе его поведения на сайте и покупок. Таким образом увеличивать продажи и прибыль бизнеса. Этому вы научитесь в модулях по рекомендательным системам.
2. Предсказывать события в клиентской базе. Таким образом можно заранее предпринять меры, которые сократят расходы или увеличат прибыль. Возьмем для примера страховую компанию, которая предоставляет услуги ДМС. Если она научит программу предсказывать, кто из клиентов в ближайшее время обратится за дорогостоящей медицинской услугой, то сможет предпринять меры, чтобы сократить расходы по ДМС. Например, позвонить клиенту и предложить ему проконсультироваться с хорошим врачом, чтобы не допустить развития болезни. Прогнозирование вы изучите в блоке «Введение в машинное обучение».
3. Формировать заказы на поставку для магазинов сети с учетом динамики продаж, сезона, прогноза погоды и других параметров. Таким образом не допускать, чтобы в торговых точках было затоваривание или нехватка товара. Построению таких моделей посвящены разделы курса по анализу временных рядов.
4. Сегментировать клиентов, чтобы делать им подходящие предложения. Возьмем для примера банк, который создал новый вид кредита. С помощью машинного обучения он может выявить в базе клиентов тех, кто вероятнее всего воспользуется таким кредитом. Решать такие задачи вы научитесь в блоке «Математика и углубленное машинное обучение».
5. Области применения машинного обучения и Python практически безграничны: от контроля качества товаров до диагностики оборудования на производстве, от продаж до аналитики, от повышения персонализации до аудита. Вы сможете использовать возможности алгоритмов практически в любой сфере. Проекты нашей учебной программы не ограничены какой-то определенной индустрией — вы сможете понять весь спектр применения анализа данных.
Ноутбук с установленным Python (Все инструкции по установке необходимого ПО будут направлены вам после получения доступа к онлайн-курсу). Около 8−10 часов в неделю и желание получить новые знания.
Нет, вам не понадобятся знания, выходящие за рамки школьной программы. Если вы когда-то были знакомы с высшей математикой и статистикой, то быстрее вспомните материал.
Нет, не нужно. Вы освоите программирование с нуля на онлайн-курсе Skillfactory.
Не обязательно. Материалы онлайн-курса — на русском языке. Знание языка — это, конечно, плюс, но выйти на хороший уровень по Data Science и стать успешным специалистом можно и без него. Если вы можете читать на английском, это будет плюсом, но не является обязательным навыком.
Сможете, конечно! Для занятий не нужен мощный домашний компьютер или дорогая видеокарта. Достаточно компьютера с выходом в интернет. Вы освоите облачные технологии для вычислений.
От 8 часов в неделю. Если уже есть опыт в этой сфере, то освоение материала и выполнение заданий займут меньше времени. Можно заниматься в удобном для вас темпе.