Математические и алгоритмические методы являются ключевыми для выявления сложных закономерностей в анализе данных. Наука о данных, или Data Science, изначально появилась на пересечении математики, компьютерных наук и бизнеса, сосредотачиваясь на построении аналитических моделей для извлечения новых знаний из информации.
Ранее анализ данных основывался в основном на математической статистике, но с появлением машинного обучения и искусственного интеллекта были добавлены новые методы, а также повышения эффективности за счет оптимизации.

Важным аспектом проектной деятельности в данной области является наличие отчетности. Без подробной документации сложно отследить затраты или принять обоснованное решение относительно дальнейшего продвижения проекта. Использование закрытых алгоритмов, так называемых «черных ящиков», представляет дополнительные риски, так как ограничивает возможности для модификаций со стороны внешних и внутренних специалистов.
Компания «Рексофт Консалтинг» выпустила исследование, посвященное проблемам, с которыми сталкиваются Data-специалисты в России в контексте внедрения цифровых решений на основе ИИ. Доклад основан на глубинных интервью с техническими директорами, CDO и лидерами команд Data Science, которые делятся своими наблюдениями о возникающих трудностях.
Компания также предлагает рекомендации по преодолению этих проблем, основываясь на полученных данных. Эти insights были представлены в отчете от 28 ноября 2023 года.
В опросе участвовали представители различных секторов: промышленности, медицины, финансов, ритейла и ИТ-компаний. Результаты интервью позволили выделить пять ключевых областей, где возникают трудности при внедрении ИИ-решений в российских компаниях.
Основные проблемы связаны с взаимодействием Data-специалистов и бизнес-заказчиков. Часто встречаются завышенные ожидания со стороны бизнеса, нежелание трансформироваться и неподходящая корпоративная культура. Эти трудности особенно остро проявляются, когда инвестиции в ИИ не приносят ожидаемого результата, и компании сталкиваются с проблемами приживаемости новых технологий.
Для успешного внедрения ИИ бизнес-заказчикам необходимо готовность к трансформации своих операционных моделей. Важно отметить, что коренные причины трудностей с данными не ограничиваются лишь аспектами ИИ, но также затрагивают всю организацию. К ним относятся низкий уровень автоматизации процессов, низкая зрелость инфраструктуры данных, плохое качество исходных данных и длительность их получения.
Проблемы с данными возникают из-за отсутствия единых стандартов и процессов сбора и управления данными. Важно учитывать, что прежде чем углубляться в Data Science, надо наладить управление данными.
Технологический ландшафт для создания ИИ-решений постоянно эволюционирует. Необходимость в гибкости и адаптации к новым вызовам становится важной для успешного использования технологий искусственного интеллекта.
Data-специалисты выделяют серьезные проблемы в области разработки и внедрения ИИ-решений. Ключевыми недостатками являются отсутствие стандартов в ИИ-разработке, недостаток гибкого подхода при прототипировании, а также отсутствие четкой стратегии взаимодействия с внешними разработчиками. В процессе передачи ИИ-решений в эксплуатацию присутствуют невыстроенные процессы и нечеткие критерии приемки. Это также касается и информационной безопасности, чьи подходы не адаптированы к специфике ИИ и его рискам.
Для преодоления барьеров при масштабировании пилотных решений важно заранее определить критерии успеха и разработать модель поддержки. Кроме того, критически необходимо установить механизм оценки экономического эффекта еще до запуска проекта и создать долгосрочную систему мотивации для сотрудников, что поможет обеспечить успешное внедрение решений.
Особой проблемой является поиск и удержание специалистов в области Data Science, поскольку существующие HR-процессы в российских компаниях не учитывают особенности работы Data-специалистов. Проблема усугубляется нехваткой T-shape специалистов, которые могут эффективно коммуницировать между бизнесом и областью Data Science. В результате текущие организационные структуры ИТ не успевают адаптироваться к изменениям, что затрудняет распределение ответственности и ослабляет роль Data-специалистов.
Искусственный интеллект (ИИ) часто рассматривается как модное веяние, но его основная задача – приносить системный трансформационный эффект компаниям. Важно создать технологическую и организационную базу для развивающихся цифровых продуктов, начиная с прототипирования и заканчивая получением реальных результатов.
Необходимо подумать о создании «цифрового конвейера», который будет сочетаться с бизнес-трансформацией в организации. ИИ должен стать привычным инструментом для бизнеса, интегрируясь в существующие системы, такие как ERP, CRM и аналитика.
По отчету Gartner, опубликованному 1 августа 2023 года, системы генеративного ИИ окажут значительное влияние на индустрию науки о данных и машинного обучения (Data Science and Machine Learning, DSML). На фоне активного использования машинного обучения в различных отраслях рынка наблюдается смещение фокуса от традиционных прогностических моделей к более динамичному и ориентированному на данные подходу.
Это связано с развитием платформ генеративного ИИ. Питер Кренски, директор-аналитик Gartner, отмечает, что, несмотря на потенциальные риски, новые возможности использования ИИ в Data Science становятся более доступными.
Также опрос, проведенный Gartner среди более 2500 руководителей компаний, показывает, что 45% организаций увеличили свои инвестиции в ИИ после появления чат-бота ChatGPT. При этом 70% респондентов изучают возможности генеративного ИИ, а 19% уже активно экспериментируют с данными технологиями.
Gartner выделяет пять основных тенденций, формирующих будущее отрасли DSML. В частности, решения по обработке данных совершают переход от автономного программного обеспечения к облачным платформам.
По прогнозам, к 2024 году 50% новых облачных приложений будут сосредоточены в целостных экосистемах данных, а не в отдельных интегрированных решениях. Также наблюдается рост интереса к инструментам Edge AI, которые позволяют обрабатывать данные непосредственно на местах их появления, что крайне важно для получения информации в реальном времени и соблюдения требований конфиденциальности.
Ожидается, что к 2025 году свыше 55% анализа данных с использованием глубоких нейронных сетей будет происходить на периферии, в то время как в 2021 году этот показатель был менее 10%.
Кроме того, концепция ответственного ИИ становится важным направлением, поскольку она позволяет эффективно внедрять технологии ИИ, минимизируя риски, связанные с доверием и этическими вопросами. Gartner советует организациям тщательно оценивать риски при внедрении нейросетевых моделей, чтобы избежать финансовых потерь и угроз репутации.
Применение данных учитывать в стратегии разработки ИИ будет способствовать созданию более продвинутых приложений и сервисов.
Использование генеративного ИИ для создания синтетических данных становится все более популярным способом эффективной тренировки моделей машинного обучения.
Прогнозы Gartner показывают, что к 2024 году 60% данных, необходимых для моделирования реальности и новых сценариев применения ИИ, будут синтетическими, в то время как в 2021 году этот показатель составлял всего 1%.
Инвестиции в технологии ИИ продолжают расти, и к 2026 году более 10 миллиардов долларов будет направлено в стартапы, использующие масштабные модели ИИ, обученные на больших объемах данных.
В последние годы ИИ утверждается как ключевая технология для предприятий любого размера, и ожидается, что этот тренд сохранится в следующем десятилетии.
Сегодня мы лишь на начальном этапе внедрения ИИ, однако к концу 2020-х можно ожидать появления более продвинутых методов его использования как в науке, так и в бизнесе.
Особенно значимой является роль ИИ в значительном повышении эффективности бизнес-процессов и управления клиентскими данными.
Хотя многие компании могут столкнуться с трудностями при интеграции ИИ из-за финансовых ограничений или нехватки квалифицированных специалистов, те, кто сделает инвестиции, получат преимущество в виде продвинутых приложений и технологий.
Такие разработки способны радикально изменить привычные методы работы.
В ближайшие месяцы ожидается значительный рост использования автоматизированного машинного обучения (МО), который позволит улучшить управление данными и трансформировать науку о данных. Это потребует от новых специалистов по данным прохождения специализированных курсов по глубокому обучению.
По прогнозам IDC, инвестиции в технологии Интернета вещей (IoT) до конца 2020 года превысят 1 трлн долларов, что указывает на рост числа «умных» устройств, активно используемых в повседневной жизни. Многие уже управляют своими бытовыми приборами через устройства, такие как Google Assistant или Amazon Alexa, что делает автоматизацию задач ещё проще.
В будущем предприятия начнут интегрировать эти технологии в бизнес-приложения, что станет очередным шагом к их широкому применению. Особенно значимый прогресс ожидается на производстве, где IoT поможет оптимизировать процессы и повысить эффективность.
Эффективный анализ больших данных предоставляет бизнесу конкурентное преимущество, и для этого компании используют разнообразные инструменты, такие как Python. Прогнозная аналитика становится всё более важной, помогая выявить причины текущих событий и спрогнозировать возможные тренды.
Технологии, такие как анализ пользовательских привычек на основе истории покупок и просмотров, становятся важным инструментом для специалистов в области маркетинга. Они помогают не только выявить предпочтения клиентов, но и разработать более эффективные стратегии привлечения и удержания пользователей. Например, «Amazon» использует прогностические модели для оптимизации складских запасов, соответствующих спросу в конкретных регионах.
С увеличением числа устройств, подключенных к Интернету вещей (IoT), нарастает и применение периферийных вычислений. Эта технология позволяет обрабатывать и хранить данные прямо у источников их появления, обеспечивая анализ в реальном времени. Это особенно актуально в условиях, когда традиционная аналитика больших данных требует значительных ресурсов и пропускной способности сетей.
С учетом роста числа датчиков, собирающих информацию, Edge Computing становится привлекательным решением для многих компаний, позволяющим более эффективно справляться с проблемами задержек и ограничения пропускной способности. Кроме того, интеграция периферийных вычислений с облачными системами создает согласованную инфраструктуру, минимизируя риски, связанные с хранением и обработкой данных.
Стоит отметить, что внедрение технологий искусственного интеллекта и машинного обучения открывает новые перспективы и создает новые профессии в сферах ИТ и высоких технологий.
В условиях растущего спроса на специалистов в области безопасности данных становится очевидным, что именно такие эксперты будут одними из наиболее востребованных на рынке труда.
Хотя в настоящее время уже существует много специалистов в области искусственного интеллекта и машинного обучения, необходимость в профессионалах, которые могут безопасно обрабатывать и анализировать данные, продолжает возрастать. Эти специалисты обязаны владеть современными языками программирования, такими как Python, а их навыки должны включать грамотное понимание концепций защиты информации.
Важное сотрудничество между компанией «Наносемантика» и школой ИТ-профессий Skillfactory знаменует собой запуск онлайн-программы «Data Science в медицине». Это партнерство направлено на формирование квалифицированных кадров в сфере Data Science для лечебных учреждений, что актуально в современном мире, где здравоохранение активно использует аналитические технологии.
В свою очередь, в 2020 году произошел еще один важный шаг в образовательной сфере: НИТУ «МИСиС», SkillFactory и Mail.ru Group (сейчас VK) объединили усилия для создания русскоязычной онлайн-магистратуры по Data Science. Это сотрудничество представляет собой уникальный подход в образовании, сочетая усилия частной компании с государственным вузом для разработки новых образовательных программ, ориентированных на высокие технологии и потребности индустрии.
Таким образом, surge интереса к Data Science открывает новые возможности для специалистов в области безопасности данных, позволяя им занять ключевые позиции в быстро меняющейся технологической среде.
Программа магистратуры в области Data Science разрабатывается НИТУ «МИСиС» совместно с SkillFactory и поддерживается такими компаниями, как Mail.ru Group, Nvidia и Ростелеком.
Основная цель данной инициативы – привлечь более 1,000 молодых специалистов в сферу науки о данных до 2025 года, в рамках проекта «Кадры для цифровой экономики», который предполагает подготовку 120,000 выпускников по IT-специальностям.
Обучение будет проводиться профессорами НИТУ «МИСиС» и практическими экспертами из таких компаний, как Яндекс, Тинькофф, ВТБ и другие. Программа включает знание и навыки в области Big Data Engineering, развития машинного обучения и искусственного интеллекта, что сделает выпускников привлекательными для работодателей.
Студенты получат возможность пройти стажировку в партнерских компаниях программы, что станет основой для дальнейшего карьерного роста. Уникальность этой магистерской программы заключается также в работе с менторами – опытными специалистами в области Data Science, которые будут оказывать поддержку студентам на протяжении всего обучения, помогать решать возникающие вопросы и предоставлять обратную связь по выполненным заданиям.
Студенты теперь смогут получать оперативную поддержку от менторов в реальном времени через специальный чат, что существенно облегчит их образовательный процесс. Технологическим партнером данной инициативы выступила компания «SkillFactory», которая поможет в организации обучения. Каждому студенту будет предложен персонализированный план обучения, что позволит управлять как образовательным процессом, так и мотивацией, что, в свою очередь, повышает итоговые результаты обучения.
Образовательная программа включает изучение языка программирования Python, а также тем, связанных с Machine Learning, Deep Learning, Big Data и Computer Vision. Разработанная модель «OPM» (Online Program Manager), которая уже хорошо зарекомендовала себя в США и Европе, будет внедрена в российских вузах. Эта модель позволяет эффективно сотрудничать университетам и образовательным компаниям для создания новых программ.
«Mail.ru Group» активно занимается подготовкой специалистов в области Data Science и совместно с НИТУ «МИСиС» открыла Академию больших данных «MADE», где на май 2020 года обучались 200 студентов из разных уголков страны. Важно отметить, что онлайн-формат обучения предоставляет возможность получения степени магистра даже жителям отдаленных регионов, что делает образование более доступным.
Для поступления в магистратуру могут быть приняты выпускники бакалавриата с любым направлением подготовки на основе результатов онлайн-экзамена. В свете растущей популярности Data Science возникает несколько вопросов. Во-первых, как отличается это новое направление от существующего на протяжении многих лет business intelligence. Во-вторых, чем конкретно различаются роли data scientist и BI analyst, несмотря на их очевидную связь.
Эти вопросы требуют детального анализа, так как оба направления получают широкое применение в различных сферах: от финансовых организаций и медицины до ритейла и транспорта. Их знания помогают не только оптимизировать бизнес-процессы, но и решать актуальные задачи в маркетинге, производстве и даже в области развлечений, таких как создание DeepFake-медиа. Поскольку данные становятся все более важными, понимание различий между этими профессиями поможет будущим специалистам лучше ориентироваться в своей карьере.