in

Тренды в Data Science на 2019 год


Прошедший год можно считать бумом Искусственного интеллекта (ИИ). Достаточно взглянуть на количество стартапов с термином AI в названиях; на то где сосредоточиваются приобретения крупных компаний; и на темы на крупнейших технологических конференциях. ИИ везде — даже если это просто модное слово. Но что на самом деле ИИ? Это довольно сложный и противоречивый вопрос.

Тренды в науке о данных на 2019 год

Куча модных слов. Давайте сосредоточимся не на модных словах, а на том, что на самом деле могут решать следующие технологии.


Ясно, что наука о данных решает проблемы. Данные повсюду, и её использование (науки) расширяется и все больше влияет на общество. Давайте сосредоточимся на науке о данных, в то время как другие философствуют на тему лучшего определения для ИИ.

В то время как другие модные слова продолжают процветать, как обстоят дела с наукой о данных?


Интерес к термину «наука о данных» с декабря 2013 года (источник: Google Trends)

Интерес совсем не плохой! Я продолжаю утверждать, что наука о данных не является модным словом. Даже для людей, которые сейчас присоединяются к науке о данных — а их много — вам просто нужно сделать быстрый поисковой запрос на вакансии в LinkedIn, и вы будете поражены количеством предложений. Давайте начнем с рассмотрения того, что произошло в 2018 году, а затем сосредоточимся на горячих темах на 2019 год.

В настоящее время


В прошлом году была опубликована статья об ожиданиях в отношении тенденций в науке о данных на 2018 год. Основными событиями, которые я упомянул, были: автоматизация рабочих процессов, простота объяснения, справедливость, коммодитизация науки о данных и улучшения в инструментах разработки и очистки.


Что касается автоматизации, то работа ученых, занимающихся данными, очень часто заключается в автоматизации их собственной работы. В настоящее время компании открывают собственные пути автоматизации. Другие просто продолжают продавать свои, но с каждым днем появляется все больше конкурентов (например, Microsoft Azure, H2O, Data Robot, Google). К счастью, наука о данных — это трансверсальная дисциплина, и те же алгоритмы, которые используются в здравоохранении, могут быть использованы с некоторыми изменениями в сельском хозяйстве. Таким образом, если компания терпит неудачу по вертикали, ее разработки могут быть быстро адаптированы к другой области.

Эти инструменты становятся обычным продуктом, и вам даже не нужно уметь программировать чтобы их использовать. Некоторые из них родились из-за нехватки талантов в области науки о данных несколько лет назад и впоследствии превратились в прибыльные продукты. Это напоминает один из принципов книги Rework — продавать свои побочные продукты.

Понятность и справедливость увидели большие успехи в 2018 году. Сейчас доступно гораздо больше ресурсов. Инструменты, которые были только альфа-версиями Python, стали более зрелыми (например, SHAP). Кроме того, вы можете легко найти структурированные и поддерживаемые книги по этой теме, такие как книга по интерпретируемому машинному обучению Кристофа Молнара. Процесс понимания очень сложных моделей движется в правильном направлении, снижая барьеры — Google What-If Tool является отличным примером.


Разработка функций по-прежнему остается одним из главных секретных решений для науки о данных. Хотя многие из лучших функций все еще создаются вручную, в этом году Feature Tools стали одной из основных библиотек разработки функций для ленивого (умного?) ученого по данным. Проблема этих инструментов заключается в том, что вам необходимо иметь стандарты данных для всего бизнеса, т.е. если один из ваших клиентов предоставляет данные в одном формате, вы должны убедиться, что второй клиент следует той же процедуре — в противном случае вы будете иметь много нежелательной ручной работы.

Наконец, если бы мы выдавали Оскар языкам программирования, Python, вероятно, получил бы несколько из них. По данным Stack Overflow, сегодня это самый быстрорастущий основной язык программирования и самый востребованный язык второй год подряд. В этом случае он быстро станет наиболее используемым языком программирования.

В ближайшем будущем

Итак, что дальше? Что еще можно сделать?

В вышеуказанных темах многое можно сделать. И они будут оставаться одними из основных направлений исследований данных в 2019 году и в последующие годы. Основное внимание будет уделяться зрелым технологиям при ответе на вопросы:

  • Как мы можем минимизировать время, затрачиваемое исследователями данных на очистку данных и разработку функций?
  • Как мы можем определить доверие в контексте машинного обучения?
  • Если мы говорим, что модель машины справедлива, каковы ее характеристики?

Каковы принципы, согласно которым мы можем сказать, что доверяем роботу?
(фото Энди Келли)

Но, кроме этих мета-вопросов, на которые сложно ответить, каковы перспективные темы?


Усиление обучения, возможно, пережило много зим в течение своей жизни. Тем не менее, похоже, что мы приближаемся к другой весне. Отличным примером является фантастическая производительность в Dota 2. Предстоит еще многое сделать, и потребуются большие вычислительные мощности … Но, в любом случае, обучение с подкреплением является наиболее похожим на человека поведением в процессе обучения, и нам интересно увидеть его приложения.

Скорее всего, мы начнем видеть, как эти доказательства концепций превращаются в реальные продукты. Если у вас есть время, посмотрите на них и используйте тренажерный зал OpenAI для их развития.

Сессия 71 GDPR: cубъект данных должен иметь «право… получить объяснение принятого решения… и оспорить решение».

Общее положение о защите данных (GDPR) действует в ЕС с 25 мая 2018 года и напрямую влияет на науку о данных. Проблема в том, что компании все еще не понимают пределы этого нового правила. Две основные открытые темы:

  • Конфиденциальность данных. Компаниям, которые неправильно обрабатывают личные данные, теперь грозят огромные штрафы. Означает ли это, что доступ к данным станет более трудным для исследований? Увидим ли мы новые разработки в области синтеза данных? Можем ли мы действительно анонимизировать данные?
  • Право на объяснение. Полностью автоматизированные решения должны быть объяснимы. Ну, это здорово … Но что на самом деле означает «объяснимо»? Увидим ли мы стандартизацию алгоритма интерпретируемости машинного обучения? От организаций ЕС на этот счет нет ответа — мы, вероятно, просто ждем, когда будет выдан самый большой штраф за всю историю.

Надежный ИИ состоит из двух компонентов: (1) он должен уважать основные права, применимое регулирование и основные принципы и ценности, обеспечивая «этическую цель», и (2) он должен быть технически устойчивым и надежным, поскольку, даже при наличии благих намерений, отсутствие технологического мастерства может нанести непреднамеренный вред [этика ЕС AI]

Поскольку алгоритмы всё больше влияют на общество, мы имеем право убедиться, что предубеждения смягчены, и их использование направлено на благо целого, а не только немногих. К счастью, компании и учреждения работают над этим. Проект этики ЕС по ИИ и принципы ИИ Google являются прекрасными примерами. Для этики еще далеко, но сейчас это обсуждаемая тема — и это хорошо.


Проект ЕС по этике искусственного интеллекта является примером того, как правительственные учреждения решают эту проблему.

По мере усложнения алгоритмов и доступности новых данных (теперь каждый гаджет генерирует данные, верно?). Все меньше людей будут просто использовать свои ноутбуки для изучения данных. Мы будем использовать облачные решения даже для самых простых проектов (например, Google Colab). Времени мало, графических процессоров нет … Ноутбуки развиваются недостаточно быстро, чтобы поддерживать темп необходимых вычислительных мощностей.


Теперь представьте, что вы видите компанию с открытой вакансией на должность «Инженер» — только это. Это здорово … Но сейчас существует около 100 типов инженеров. Это инженер-механик? Aerospace? Программного обеспечения? «Инженер» слишком универсален.


Один или два года назад компании просто опубликовали вакансию под названием «Data Scientist». Ну, это начинает ощущаться неполным. И если вы только начинаете свой путь в этой области, то становиться специалистом по общим данным может быть слишком сложно. После того, как вы освоите эту область, вам лучше сосредоточиться на конкретной теме. Возьмем, к примеру, Netflix, который имеет девять ролей данных:


Роли данных Netflix (источник: технический блог Netflix)

Существует множество областей специализации, которых раньше не было, и для ученых, работающих с данными, становится все более важным сосредоточиться на одной из них. Пришло время найти свой собственный, если вы еще этого не сделали. С моей точки зрения, навыки Data Engineering — самые интересные в ближайшие годы. Если их нет в вашей команде, вы, вероятно, просто играете в науку о данных в записных книжках Jupyter. И компании это понимают.

2019 год снова станет удивительным. Многое еще предстоит сделать, и это не простой бред и занудство! Реальные проблемы, которые предстоит решить, ждут.

В качестве заключительного замечания помните, что время является нашим самым большим активом. Каждая секунда, которую вы тратите, не делая чего-то стоящего, — это секунда, которую вы просто потеряли, не делая ничего великого. Выберите свою тему и не рассматривайте свой рабочий бизнес как обычно.

Hugo Lopes

Перевод материала от Greatech

Оригинал

Как вы оцените нашу статью?

2 рейтинг
Upvote Downvote

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

HUAWEI Mate 20 Pro - король смартфонов

HUAWEI Mate 20 Pro — король смартфонов

Шесть интересных прототипов дополненной реальности