Перейти к главному контенту

Что такое большие данные?

Большие данные обычно определяют с точки зрения проблем управления данными, которые не удается решить в рамках традиционных баз данных в силу объема, разнообразия данных и требований к скорости. Существуют разные определения больших данных, но большинство из них базируется на концепции «трех V» больших данных.

Объем: от терабайт до петабайт данных

Разнообразие: включает данные из широкого спектра источников и форматов (например, веб-журналы, взаимодействие в социальных сетях, электронная коммерция и онлайн-транзакции, финансовые транзакции и т. д.)

Скорость: компании все чаще предъявляют строгие требования, начиная с момента создания данных и заканчивая предоставлением пользователям полезной информации. Таким образом, необходимо обеспечить сбор, хранение, обработку и анализ данных за довольно короткое время: от одного дня вплоть до режима реального времени.

В каких случаях могут понадобиться большие данные?

Несмотря на всю доступную информацию, многие организации не осознают, что сталкиваются с проблемой больших данных, или просто не готовы мыслить такими категориями. Организация может получить преимущества от применения технологий больших данных, если ее существующие приложения и базы данных больше не способны масштабироваться и справляться с внезапными увеличениями объема или разнообразия данных либо требований к скорости их обработки.

Если вовремя не найти правильный подход к работе с большими данными, это может привести к повышению расходов, а также снижению эффективности работы и конкурентоспособности. И напротив, разумная стратегия по работе с большими данными может помочь организации сократить расходы и получить дополнительные эксплуатационные преимущества за счет осуществления текущих крупных рабочих нагрузок с помощью технологий больших данных, а также развертывания новых приложений для выгодного использования открывшихся возможностей.

Как работают большие данные?

Технологии больших данных включают новые инструменты для всех этапов цикла обработки данных, использование которых вполне доступно как с технической, так и с финансовой точки зрения. С помощью этих инструментов можно решать вопросы сбора и хранения больших пакетов данных, а также выполнять их обработку для получения новой ценной аналитической информации. В большинстве случаев работа с большими данными подразумевает стандартный процесс: от сбора необработанных данных и до получения пригодной для использования информации.

Собирайте. Сбор необработанных данных (транзакций, записей журналов, событий мобильных устройств и пр.) – это первая проблема, с которой сталкиваются организации при работе с большими данными. Качественная платформа для работы с большими данными упрощает этот этап, предоставляя разработчикам возможность сбора самых разнообразных данных, структурированных и нет, на любой скорости, от режима реального времени до пакетной обработки.

Магазин. Любая платформа для работы с большими данными должна включать надежный, безопасный и масштабируемый репозиторий для хранения данных как до обработки, так и после таковой. В зависимости от конкретных требований могут понадобиться и временные хранилища для перемещаемых данных.

Обработка и анализ. На этом этапе выполняется преобразование данных из необработанного состояния в пригодный для использования формат. Обычно это достигается за счет сортировки, агрегации, объединения или применения специальных расширенных функций и алгоритмов. После этого итоговые пакеты данных сохраняются для дальнейшей обработки или предоставляются для использования с помощью инструментов бизнес-аналитики и визуализации.

Потребляйте и визуализируйте. Основная цель работы с большими данными – получение на их основании ценных аналитических выводов для практического применения. В идеале большие данные должны становиться доступными для всех заинтересованных сторон, чтобы они получали возможность легко и быстро изучать пакеты данных с помощью инструментов бизнес-аналитики и настраиваемой визуализации, рассчитанных на самостоятельное использование. В зависимости от типа аналитики конечным пользователям могут предоставляться готовые результаты в форме данных статических «прогнозов» (в случае прогнозирующей аналитики) или рекомендованных действий (в случае предписывающей аналитики).

Как эволюционировала обработка больших данных

Технологии работы с большими данными продолжают активно развиваться. Уже сегодня у организаций есть выбор между разными типами аналитики для реализации различных функций.

Описательная аналитика помогает пользователям ответить на вопрос: «Что произошло и почему? » В качестве примеров можно привести традиционную среду запросов и отчетов с оценочными карточками и информационными панелями.

Прогнозная аналитика помогает пользователям оценить вероятность того или иного события в этой функции. В качестве примеров можно привести системы прогнозирования, заблаговременных предупреждений и обнаружения мошенничества, а также приложения для профилактического обслуживания.

Предписывающая аналитика предоставляет пользователю конкретные (предписывающие) рекомендации. Они помогают ответить на вопрос: «Что делать, если произойдет событие Х?»

Изначально инфраструктуры по работе с большими данными, например Hadoop, поддерживали только пакетные рабочие нагрузки. Крупные пакеты данных загружались для обработки сразу, и процесс ожидания результатов растягивался на часы и даже дни. Однако по мере того, как время получения информации стало более важным, «скорость» больших данных способствовала развитию новых платформ, таких как Apache Spark, Apache Kafka, Amazon Kinesis и других, для поддержки обработки данных в реальном времени и потоковой обработки данных.

Как AWS может поддержать ваши требования к большим данным?

Amazon Web Services предоставляет широкий и полностью интегрированный портфель сервисов облачных вычислений, которые помогут вам создавать, защищать и развертывать приложения для работы с большими данными. При работе с AWS не нужно закупать оборудование или обслуживать инфраструктуру, а значит, можно сконцентрировать усилия на поиске новых подходов и технологий. Мы постоянно расширяем возможности наших сервисов, поэтому вы можете использовать в работе новейшие технологии без долгосрочных инвестиций.

Подробнее о платформе и инструментах AWS для работы с большими данными »

Мгновенный доступ

Технологии больших данных в основном работают на больших кластерах серверов, что выливается в длительные циклы выделения и настройки ресурсов. С платформой AWS вы развернете требуемую инфраструктуру почти мгновенно. Как следствие, повышается производительность работы, упрощается процесс тестирования новых идей, сокращается время, необходимое для запуска проектов.

Широта охвата и разнообразные возможности

Рабочие нагрузки больших данных так же разнообразны, как и наборы данных, для анализа которых они предназначены. Использование платформы с широким охватом и возможностями означает, что вы можете создать практически любое приложение для работы с большими данными и справиться с различными рабочими нагрузками, независимо от объема, частоты обновлений и разнообразия данных. Ежегодно AWS внедряет более 50 новых сервисов и сотни новых возможностей, тем самым предоставляя все необходимое для сбора, хранения, обработки, анализа и визуализации больших данных в облаке. Узнайте больше о платформе больших данных AWS.

Надежность и безопасность

Большие данные часто являются конфиденциальными. Таким образом, принципиально важно гарантировать безопасность наборов данных и защиту инфраструктуры без потери гибкости. Функциональные возможности, предоставляемые AWS в сфере оборудования, сетевых конфигураций, ПО и обеспечения бизнес-процессов, соответствуют самым жестким требованиям. Окружающая среда постоянно проверяется на предмет наличия таких сертификатов, как ISO 27001, FedRAMP, DoD SRG и PCI DSS. Наши программы предоставления гарантий помогут подтвердить соответствие требованиям более чем 20 стандартов, включая HIPAA, NCSC и другие. Посетите Центр облачной безопасности, чтобы узнать больше.

Сотни партнеров и решений

Если ваших собственных навыков недостаточно, сообщество партнеров AWS готово помочь вам начать работу с большими данными еще быстрее. Посетите партнерскую сеть AWS, чтобы получить помощь от партнера-консультанта, или выберите один из множества инструментов и приложений во всем стеке управления данными.

Решения для больших данных на AWS

Позвольте нам помочь вам в решении проблем с большими данными. Поручите нам выполнение самых сложных задач, чтобы отдавать больше сил и времени непосредственному достижению целей вашей организации.

Подробнее о решениях AWS для больших данных»

Начните работу с аналитикой больших данных на AWS, создав аккаунт уже сегодня.