Что такое Data Science и кто такой Data Scientist

Что такое Data Science?

Data Science — это работа с большими данными (англ. Big Data). Большие данные — это огромные объёмы неструктурированной информации: например, метеоданные за какой-то период, статистика запросов в поисковых системах, результаты спортивных состязаний, базы данных геномов микроорганизмов и многое другое. Ключевые слова здесь — «огромный объём» и «неструктурированность». Чтобы работать с такими данными, используют математическую статистику и методы машинного обучения.

Специалист, который делает такую работу, называется дата-сайентист (или Data Scientist). Он анализирует большие данные (Big Data), чтобы делать прогнозы. Какие именно прогнозы — зависит от того, какую задачу нужно решить. Итог работы дата-сайентиста — прогнозная модель. Если упростить, то это программный алгоритм, который находит оптимальное решение поставленной задачи.

Эти прогнозы и правда полезны?

Да. Очень многие сервисы, к которым мы уже привыкли, создали дата-сайентисты. И вы сталкиваетесь с результатами их работы каждый день. Например, это прогнозы погоды, чат-боты, голосовые помощники… А ещё — алгоритмы, рекомендующие музыку и видео под вкус конкретного пользователя. Список возможных друзей в социальных сетях — тоже результат Data Science. В основе поисковых систем и программ для распознавания лиц тоже лежат алгоритмы, написанные дата-сайентистами.

То есть Data Science — то же самое, что и обычная бизнес-аналитика?

Нет, это не одно и то же. Основная разница заключается в результате. Data Scientist ищет в массивах данных связи и закономерности, которые позволят ему создать модель, предсказывающую результат, — то есть можно сказать, что Data Scientist работает на будущее. Он использует программные алгоритмы и математическую статистику и решает поставленную задачу в первую очередь как техническую.

Бизнес-аналитик сосредоточен не столько на технической, программной стороне задачи, сколько на коммерческих показателях компании. Он работает со статистикой и может оценить, например, насколько эффективна была рекламная кампания, сколько было продаж в предыдущем месяце и так далее. Вся эта информация может использоваться для улучшения бизнес-показателей компании. Если данных много и нужен какой-то прогноз или оценка, то для решения технической стороны этой задачи бизнес-аналитик может привлечь дата-сайентистов.

Поясним на примере. Допустим, программа анализирует финансовые операции клиента и рекомендует выдать ему кредит или отказать. То есть задача программы — оценить платёжеспособность клиента. Создание такого програмного алгоритма — работа дата-сайентиста.

А бизнес-аналитик не занимается такими техническими задачами. Его не интересует работа с конкретным клиентом, но он может проанализировать всю статистику банка по кредитам, например, за последние три месяца — и рекомендовать банку сократить или увеличить объёмы кредитования. Это бизнес-задача: предлагаются действия, которые увеличат доходность банка либо снизят финансовые риски.

Работа бизнес-аналитика и дата-сайентиста нередко пересекается, просто каждый занимается своей частью задачи.

А где обычно работает Data Scientist?

Вот несколько вариантов:

  • В бизнесе — в любом его направлении. Например, дата-сайентист создаёт алгоритмы, прогнозирующие спрос на услуги компании. Другие алгоритмы помогут решить, нужно ли компании открывать новое направление бизнеса. Вариантов много.
  • В банках. Один из примеров мы разобрали в предыдущей карточке.
  • В транспортных компаниях. Например, программы помогают выстроить оптимальный маршрут.
  • В IT-сфере. Дата-сайентист разрабатывает ботов, поисковые алгоритмы, системы искусственного интеллекта.
  • На производстве. Например, программы прогнозируют сбои оборудования и дефекты продукции.
  • В страховых компаниях. Машинные алгоритмы оценивают вероятность страхового случая.
  • Медицина. Появляется всё больше приборов, автоматически ставящих диагноз на основании данных. Например, программа может указать повреждённые органы на рентгеновских снимках.
  • В сельском хозяйстве. Алгоритмы дают прогноз по урожаю, подбирают оптимальные системы землепользования.
  • Биоинформатика и современные генетические исследования немыслимы без Data Science. Программы строят генетические карты, определяют вид организма.
  • Физические исследования. Например, алгоритмы выявляют элементарные частицы и их следы.
  • Метеослужбы. Да, современные прогнозы погоды тоже готовятся с помощью Data Science.

И это далеко не полный список. Везде, где нужны прогнозы, совершаются сделки или оцениваются риски, пригодится Data Scientist. Вот несколько примеров рабочих моделей. Некоторые неожиданные: например, Corrupt Social Interactions  модель, выявляющая коррупцию в Департаменте строительства (Department of Building) США. Или сервис А Roommate Recommendation  он помогает подобрать соседа по комнате в кампусе или хостеле.

Понятно. А работу найти легко? Это точно востребовано?

Легко ли найти работу — зависит и от кандидата тоже. Но сама профессия весьма востребована. В 2016 году американская компания Glassdoor опубликовала рейтинг 25 лучших вакансий в США и профессия Data Scientist возглавила этот список. С тех пор востребованность стала даже выше.

Алгоритмы машинного обучения сейчас стремительно развиваются, прогнозы на их основе становятся точнее, а сфер их применения всё больше. Это значит, что у профессии Data Scientist большое будущее.

Но это за рубежом. А что в России?

У нас спрос на этих специалистов тоже постоянно растёт. Например, в 2018 году вакансий с названием Data Scientist было в 7 раз больше по сравнению с 2015 годом, а в 2019 году рост продолжился.

На середину апреля 2020 года на hh.ru — 323 вакансии с заголовком Data Scientist, из них 204 вакансии — в Москве, 39 — в Санкт-Петербурге и остальные — в других городах.

А сколько они зарабатывают?

Как и везде, это зависит от опыта работы и навыков дата-сайентиста, особенностей компании и сложности конкретного проекта. Но общий расклад примерно такой (данные приведены по состоянию на февраль 2020 года):

  • Зарплаты по вакансии Data Scientist на HH.ru начинаются от 70 тысяч рублей по России и от 100 тысяч рублей в Москве. Это деньги, на которые могут претендовать новички в отрасли. Чтобы было проще сориентироваться, средняя зарплата в Москве в начале 2020 года составляет около 86 тысяч рублей.
  • Основной диапазон зарплат по вакансиям дата-сайентиста — примерно от 100 до 160 тысяч рублей по России и от 150 до 200 тысяч рублей в Москве. На такие зарплаты могут претендовать специалисты с опытом.

Высококвалифицированные специалисты по Data Science могут получать в месяц 250 тысяч рублей и более.

Вы сказали, что Data Scientist создаёт программный алгоритм. А что конкретно он делает?

В разных компаниях деятельность дата-сайентиста будет различаться. Однако основные этапы похожи:

  • сначала он выясняет, что нужно заказчику (внутреннему или внешнему);
  • теперь надо оценить, можно ли решить эту задачу методами машинного обучения;
  • если да, то дата-сайентист готовит данные для анализа и ищет критерии оценки — чтобы понять, насколько эффективна модель, которую он создаёт;
  • затем программирует и тренирует модель машинного обучения;
  • после ему нужно оценить, насколько применение этой модели целесообразно экономически. Здесь ему могут помочь другие специалисты;
  • теперь полученная модель внедряется в производственный цикл или продукт;
  • когда модель уже введена в эксплуатацию, обязанность дата-сайентиста — вести её, то есть дорабатывать и изменять под текущие нужды.

Что нужно знать и уметь, чтобы работать в Data Science?

Если в общих чертах, то нужно знать математику, математическую статистику, программирование, принципы машинного обучения и ту отрасль, где всё это будет использоваться.

И умение работать в команде тоже никто не отменял: дата-сайентисту приходится общаться с разными специалистами.

Если у меня нет технического образования, то о работе в Data Science лучше не мечтать?

Будем откровенны — гуманитариям осваивать эту профессию может быть непросто: для работы в Data Science нужно хорошее знание математики и программирования. А у гуманитария этих знаний чаще всего нет. И наоборот: чем увереннее вы чувствуете себя в этом уже на старте, тем проще будет учиться.

Однако не стоит опускать руки: очень многое зависит от мотивации, от того, насколько вы готовы восполнять пробелы в своем образовании. Сейчас люди приходят в Data Science с разным бэкграундом и в разном возрасте. Вот пример одной такой истории — возможно, она вас поддержит.

А с чего лучше начать?

Начать лучше с математики. Очень сложная математика не понадобится, но вы должны свободно ориентироваться в таких понятиях, как производная, дифференциал, определитель матрицы, и в том, что с ними связано. Освоить это вам помогут книги и лекционные курсы. Например, книга «Математический анализ» Липмана Берса, написанная довольно простым языком.

А что дальше? Там было что-то о статистике?

Да, потому что математическая статистика используется в любой аналитике. И Data Science не исключение. Вот несколько бесплатных курсов, которые помогут вам изучить статистику.

Кажется, с математической частью закончили. Что по программированию?

Следующим шагом будет изучение Python. Сейчас этот язык программирования, пожалуй, основной инструмент в Data Science. Среди его достоинств — относительная простота и гибкость. Освоить Python вполне по силам новичку, который до того не программировал. Неслучайно этот язык нередко рекомендуют для начинающих.

По Python есть много курсов, как платных, так и бесплатных. 

Что учить после Python?

Теперь можно изучать алгоритмы машинного обучения. Когда освоитесь с ними, уже сможете работать в Data Science.

Вот несколько бесплатных онлайн курсов по машинному обучению (много курсов на английском, но кое-что есть и на русском).

  • Курс МФТИ «Машинное обучение и анализ данных». Там можно освоить современные инструменты для анализа больших данных и научиться проводить сам анализ — от сбора данных до представления результатов. Курс на русском языке.
  • Курс машинного обучения от Google помимо объяснений содержит около 40 практических упражнений. Также на английском языке.
  • Запись цикла лекций профессора факультета машинного обучения из университета Карнеги — Меллона. Бесплатный курс, рассчитан на людей с хорошей базой в программировании и математике. На английском языке, но можно поставить русские субтитры.
  • Продвинутый курс об использовании алгоритмов машинного обучения в творчестве. Создан при поддержке проекта Google Magenta. На курсе изучаются основные компоненты глубокого обучения: свёрточные сети, генеративные состязательные сети, вариационные автокодеры и рекурсивные нейросети. Если эти слова вас пока пугают — начните с курсов выше, рассчитанных на новичков.

Мало знать методы машинного обучения, нужно уметь применять их для решения практических задач. Научиться этому можно на платформе Kaggle, где собрано огромное количество реальных задач.

Если вы хорошо знаете английский, он поможет вам быстрее развиваться в Data Science. Если нет — самое время его выучить.

Очень много всего. Может быть, есть курсы, где можно освоить сразу всё?

Да, есть и такие. Например, наш курс по Data Science. Он так и называется. На наш курс приходят как люди с опытом в программировании, так и совсем новички, программа курса это учитывает. Обучение длится около года, в нём уже есть все блоки, которые мы описали выше.

Учиться можно онлайн, из любого города. Наши преподаватели — практики с опытом работы 10–15 лет. У вас будет возможность не только освоить теорию, но и практиковаться на реальных задачах, получая рекомендации от наставника. Очень важный бонус — помощь при трудоустройстве.







Подборки статей, полезных сервисов и вакансий, анонсы бесплатных лекций и бонусы. Присоединяйтесь!

Даю свое согласие на обработку персональных данных


+