Data Scientist: чем занимается специалист по данным
Время на прочтение: 6 минут(ы) Подробный гайд по самой востребованной профессии 21 века.
Кто такой Data Scientist?
Data Scientist переводится как «ученый по данным». По названию легко догадаться, что работа этого человека связана с Big Data — большими данными. Для того чтобы работать с ними, дата сайентист использует анализ данных, а также навыки создания моделей машинного обучения.
Big Data называют большие объёмы данных, которые могут иметь структуру, а могут и быть хаотичными. Вне зависимости от типа, они важны и могут пригодиться для разных сфер, но обработать такие данные без специальных программ и алгоритмов физически невозможно. Поэтому и нужны Дата Сайентисты: они умеют управлять данными и отыскивать среди них то, что нужно, правильно структурировать и строить прогноз.
Навыки специалиста по Data Science объединяет в себе сразу три больших области: машинное обучение, статистику и программирование. Поэтому работа потребует внимательности, точности и способности к анализу данных.
Отличие аналитика данных от Data Scientist
Есть важное отличие аналитика данных от Дата Сайентиста, ведь они выполняют разные задачи. Исследователь данных — это инженер, решающий прежде всего технические задания. Результат — это код, который может обрабатывать большие объёмы данных и находить среди них закономерности. Аналитик данных — больше анализирует уже существующие данные, не занимаясь их поиском, тестирует, прогнозирует, визуализирует результаты, то есть работает с тем, что ему предоставит Дата Сайентист. Аналитик не работает с техническими задачами.
Где работают Дата Сайентисты
Дата Сайентисты пригодятся во всех сферах, где предполагается работа с большими данными. А это очень большой список областей, от бизнеса до науки. Так как методы работы с данными универсальны, Data Scientist могут перемещаться между сферами без больших трудностей, подыскивая себе место с наиболее интересными под личные вкусы задачами.
Дата сайентисты особенно нужны в:
- IT-сфере. Data Science нужна для разработки технологий от простых ботов и поисковых алгоритмов до ИИ.
- Бизнесе. Здесь Data Scientist чаще всего создаёт алгоритмы, что будут прогнозировать спрос на услуги или товары, с которыми работает организация. Но также пригодятся алгоритмы для более тонких вопросов, например, прогнозирующих выгоду от открытия нового филиала или целого исследовательского направления.
- Банковской сфере. Сфера финансов требует тонких расчётов, поэтому без работы с большими данными здесь никуда. Особенно сложные расчёты будут в сфере кредитования.
- Производстве. Чтобы прогнозировать сбои оборудования, например.
- Транспортных компаниях. Дата Сайентисты помогают рассчитывать наиболее оптимальные логистические маршруты.
- Маркетинге. Data Science помогает определить компании, которые приносят больше всего клиентов, где и как искать целевых клиентов или на каком сегменте компания больше всего зарабатывает.
- Медицине. Работа с большими данными нужна во всех сферах, и в фармацевтике, и в лечебном деле.
И это далеко не весь список, только самые основные направления. Спрос на Дата Сайентистов постоянно растёт, потому что во всё большем количестве сфер открывают пользу больших данных. Data Science, благодаря моделям машинного обучения, могут прогнозировать будущее, а также анализировать прошлые решения и выявлять ошибки, которые ещё можно исправить.
Востребованность профессии
Исследование Всемирного Экономического форума показало: именно Дата Сайентисты будут больше всего нужны рынку как минимум до 2025 года. А если не наберётся нужное количество специалистов, то спрос в Data Science останется высоким ещё дольше, поэтому те, кто начнут обучаться уже сегодня, попадут на хорошую должность и смогут повлиять на развитие всей сферы.
Средняя зарплата в индустрии — 228 000 рублей, а медианная — 220 тысяч. Даже начинающие специалисты в среднем получают 97 000 рублей — следствие большого спроса на Дата Сайентистов. Вот пример junior вакансии из Сбер:
Чем занимается Data Scientist
Data Science применяется в разных сферах и задачи в них различаются. В отделе кредитования — вычислить платежеспособность клиента, в отделе возвратов интернет-магазина — найти зависимости в испорченных товарах. Но общие задачи дата сайентиста будут следующие:
- Получение задачи.
- Определение, нужно ли решать задачу с помощью машинного обучения.
- Составление плана, по сбору данных.
- Сбор данных.
- Выбор подходящей модели машинного обучения.
- Программирование модели.
- Тренировка модели машинного обучения.
- Тестирование.
Иногда, даже выполнив эту последовательность действий, решить задачу не получается. Тогда Data Scientist перепроверяет собранные данные, определяет, достаточно ли данных собрано, проверяет правильность алгоритма их обработки.
Если ошибок нет, значит она была сделана на шаге выбора модели машинного обучения. В зависимости от продукта, с которым работает Data Scientist, это может быть распознавание текста или речи, анализ рассылок, рекомендации в поиске. Подход к решению в Data Science всегда уникален, но главное — добиться четкой работы алгоритмов.
Например, если система рекомендаций настроена Дата Сайентинстом верно, то пользователи чаще будут кликать на рекомендуемые товары.
Что нужно знать Дата сайентисту
Data Scientist должен быть разносторонним, поэтому от него требуются как hard skills, так и soft skills. Технические знания в Data Science так же важны, как и умение говорить с людьми, обсуждать с ними задачи и добиваться правильной постановки задания. Большая часть работы data scientist всё же будет технической, однако, начать её без правильного ТЗ невозможно.
Более того, о результатах работы предстоит рассказывать коллегам, которые не так хорошо разбираются в Big Data, поэтому нужно уметь объяснять проделанную работу в общих чертах и на пальцах. И по этой причине при найме Дата Сайентиста soft skills тоже проверяют.
Технические навыки в Data Science предполагают хорошие знания в математике и умелое программирование. Из математики Data Scientist пользуется:
- Теорией вероятности;
- Статистикой;
- Линейной алгеброй;
- Математическим аналиом.
А из области программирования дата сайентисту потребуются:
- Уверенное знание одного из основных языков программирования для работы с базами данных — Python или R.
- Знание C или C++ для особенно сложных заданий.
- SQL.
- Знание моделей машинного обучения, как их организовать и как тестировать.
- Matplotlib или Seaborn в Python как средства визуализации данных.
- Apache или Haadop, чтобы работать с большими данными.
Также, каждому Data Scientist необходим английский язык с уровнем выше среднего — Upper Intermediate+. Это нужно для чтения документации, литературы и проведения исследований с данными, значительная часть которых существует на английском.
Плюсы и минусы профессии Data Scientist
Плюсы
- Высокие зарплаты — сказывается нехватка кадров и растущий спрос на рынке
- Приносит пользу бизнесу — анализ больших данных позволяет искать точки роста, которые приносят дополнительный доход
- Высокий спрос — все больше компаний внедряют Data Science команды, чтобы работать с большими данными
Минусы
- Высокий уровень неопределенности — Дата Сайентисты решают сложные математические задачи. Трудно предсказать исход анализа или найти быстрое решение.
- Динамика развития — профессия новая, поэтому придется следить за изменениями и новшествами, которые появляются каждый месяц. Не зря сферу называют «наука о данных».
Как начать карьеру новичку
В Data Science попадают как с нуля, так и переходят из другой сферы. Например, разработчикам этот переход будет проще, так как языки программирования и работа с алгоритмами уже знакомы, как и многие принципы работы в IT. Потребуется лишь освежить или улучшить знания матанализа и статистики, а заодно освоить навык визуализации данных.
Войти в Data Science будет легко тем, кто выпустился с факультета математической направленности: физического, математического, экономического. Выпускникам этих факультеов, наоборот, нужно углубиться в программирование.
Тем, кто склонен к гуманитарным наукам, будет немного сложнее, но если действительно захочется заниматься большими данными, ничто не станет помехой. Просто может потребоваться чуть больше времени на освоение языков программирования и некоторых математических тем.
Войти в Data Science можно и без образования, поэтому отсутствие диплома бакалавра никак не помешает карьере. Профессия новая, поэтому много информации доступно в интернете. Сначала нужно получить математическую базу:
- Теорию вероятностей;
- Линейную алгебру;
- Теорию множеств;
- Статистический анализ данных.
После — научиться работать с данными:
- Освоить SQL и СУБД;
- Язык программирования R или Python;
- Если выберите Python — узнать о библиотеках Pandas, matplotlib, NumPy, Seaborn.
Затем — переходить к машинному обучению и реальной работе с большими данными: освойте Hadoop, Apache. Чтобы точно составить образовательный план, послушайте интервью Дата Сайентистов, почитайте статьи и пообщайтесь со специалистами в социальных сетях.
Где учиться Data Science
В вузе
Так как в Data Science требуется продвинутая математика, хорошей идеей будет поступить в университет на факультет с прикладной математикой: физический или бизнес-информатику. Там вы получите понимание алгоритмов, которые используются в Data Science, и общие фундаментальные знания. Потребуется подтянуть навыки в программировании, так как математические факультеты не углубляются в эту сферу.
Профильный вуз — проверенный путь в Data Science, если вы только выбираете свою специальность. Однако, не у всех есть возможность потратить на обучение от 2 до 4 лет.
Самообучение
Способность обучаться самостоятельно особенно ценится в IT, тем более в сети тысячи обучающих материалов, от учебников до целых бесплатных видеокурсов, которые помогут освоить почти любую профессию.
С Data Science проблем тоже не возникнет, Python и SQL можно изучать на онлайн-тренажерах, однако, в сфере больших данных всё же важна и математика. Поэтому очень полезно иметь рядом наставника, который подскажет пошаговый план обучения и структурирует знания.
Онлайн-курсы
С нуля стать Data Scientist помогут специализированные курсы. Их программы созданы под требования рынка, разработкой материалов занимаются Дата сайентисты с большим опытом. Они уже прошли этот путь и знают, как построить план обучения и на чем стоит сфокусироваться новичку. Курсы обычно дистанционные, проходить их можно где угодно, а образовательные программы строятся по схеме «теория + практика»: после изучения материалов можно сразу отрабатывать их на тренажёрах, так материал усваивается лучше.
Такой курс есть и у ProductStar. Программу создавали специалисты в области Data Science из Сбербанка, Везет, Wheely. За 6 месяцев вы освоите методы машинного обучения и научитесь работать с большими данными на Python. На курсе есть программа трудоустройства: Карьерный Центр поможет написать резюме, пройти собеседование и получить первую работу в Data Science. Подробности можете узнать по ссылке.
Полезные материалы
Курсы:
- Курс по теории вероятности
- Курс по статистике
- Введение в дата сайнс
- Python-тренажер
- Библиотека задач по ML и большим данным
Книги:
Каналы и сообщества:
Сообщество про AI, ML и Анализ данных
Итог
- Профессия Data Scientist входит в топ 5 перспективных профессий по данным Всемирного Экономического форума.
- Дата Сайентисты работают с большими данными. Применяют модели машинного обучения, математический анализ и языки программирования.
- Специалисты нужны в самых разных отрослях: от финтеха до ритейла.
- Средняя зарплата начинающего специалиста — от 120 000 рублей.
Подпишись на нашу рассылку и получай свежие полезные материалы каждую неделю
Нас читает 11 000 человек