Данные временных рядов, также называемые данными с отметками времени, – это данные, которые наблюдаются последовательно во времени и индексируются по времени. Данные временных рядов повсюду вокруг нас. Поскольку все события существуют во времени, мы находимся в постоянном контакте с огромным разнообразием данных временных рядов.

Данные временных рядов используются для отслеживания всего: от погоды, рождаемости, заболеваемости, пульса и рыночных индексов до производительности серверов, приложений и сети. Анализ данных временных рядов играет важную роль в таких разнообразных дисциплинах, как метеорология, геология, финансы, социальные науки, физические науки, эпидемиология и производство. Мониторинг, прогнозирование и обнаружение аномалий – вот некоторые из основных вариантов его использования.

Почему важны данные временных рядов?

Ценность данных временных рядов заключается в выводах, которые можно извлечь из отслеживания и анализа. Понимание того, как конкретные точки данных меняются с течением времени, формирует основу для многих статистических и бизнес-анализов. Если вы можете отслеживать, как цена акций менялась с течением времени, вы можете сделать более обоснованное предположение о том, как они могут работать в течение того же периода в будущем. Анализ данных временных рядов может привести к более эффективному принятию решений, новым моделям доходов и более быстрым бизнес-инновациям. Чтобы узнать, как различные отрасли используют временные ряды для своих вариантов использования, прочитайте некоторые из эти примеры тематических исследований временных рядов.

Примеры данных временных рядов

Данные временных рядов – это не только измерения, которые происходят в хронологическом порядке, но и измерения, значение которых увеличивается, когда вы добавляете время в качестве оси. Чтобы определить, является ли ваш набор данных временным рядом, проверьте, является ли одна из ваших осей временем. Например, данные временных рядов можно использовать для отслеживания изменений – с течением времени – температуры в помещении, загрузки ЦП некоторым программным обеспечением или цены акций.

Данные временных рядов можно разделить на две категории: данные регулярных и нерегулярных временных рядов или, другими словами, показатели и события. Вот некоторые примеры:

  • Данные регулярных временных рядов (метрики): ежедневные цены на акции, квартальная прибыль, годовые продажи, данные о погоде, расходах реки, атмосферное давление, частота сердечных сокращений и данные о загрязнении – все это примеры данных регулярных временных рядов. Данные регулярных временных рядов собираются через равные промежутки времени и называются метриками.
  • Данные нерегулярных временных рядов (события): данные временных рядов также могут появляться с нерегулярными временными интервалами и тогда называются событиями. Примеры включают журналы и трассировки, снятие средств в банкоматах, депозиты на счетах, сейсмическую активность, вход в систему или регистрацию учетных записей, потребление контента и данные производственного процесса, такие как время обработки, время проверки, время перемещения и время ожидания.

Данные временных рядов иногда демонстрируют высокую степень детализации, вплоть до микросекунд или даже наносекунд.

Особенности и функции баз данных временных рядов

Для данных временных рядов требуется база данных, оптимизированная для измерения изменений во времени и способная обрабатывать большие объемы рабочих нагрузок. Базы данных временных рядов (TSDB) были разработаны специально для поддержки приема, хранения и анализа данных временных рядов.

Базы данных временных рядов в последние годы стали самый быстрорастущий сегмент базы данных, одновременно с быстрым ростом технологий Интернета вещей, больших данных и искусственного интеллекта, которые требуют обработки и анализа огромных объемов данных временных рядов с высокой скоростью приема. Примеры баз данных временных рядов включают InfluxDB, Prometheus и Graphite.

Важные особенности базы данных временных рядов включают следующее:

  • Управление жизненным циклом данных: процесс управления потоком данных на протяжении всего их жизненного цикла от сбора и приема до агрегирования, обработки и истечения срока действия.
  • Обобщение: практика представления значимого резюме ваших данных с помощью гибких запросов, преобразований, визуализаций и панелей мониторинга.
  • Сканирование большого количества записей в большом диапазоне. Сканирование миллионов записей временных рядов является частым требованием для многих случаев использования временных рядов. Для этих типов сканирования требуется специализированное программное обеспечение, такое как базы данных временных рядов, которые используют специально разработанные алгоритмы сжатия, индексирования и пространственного обобщения, которые позволяют пользователям быстро писать, запрашивать и визуализировать миллионы точек.

Эти функции предназначены для облегчения крупномасштабной обработки больших объемов данных временных рядов. Общие задачи базы данных временных рядов включают следующее:

  • Пишите большие объемы данных. Независимо от того, собираете ли вы и записываете данные с точностью до наносекунды для высокочастотной торговли или собираете данные с сотен тысяч датчиков, базы данных временных рядов оптимизированы для высоких скоростей приема, с которыми другие базы данных просто не могут справиться.
  • Запросите сводку данных за большой период времени. Сбор сводок ваших данных за большие периоды времени поможет вам получить ценную информацию о поведении данных в целом. Например, вы можете захотеть посмотреть на среднемесячную температуру в различных городах за много лет, прежде чем решить, в какой город вы хотите переехать.
  • Автоматически понижайте дискретизацию или удаляйте старые временные ряды, которые больше не нужны, или храните высокоточные данные в течение короткого периода времени. Например, ежеминутный мониторинг давления в трубопроводе химического завода может иметь решающее значение для соблюдения стандартов безопасности во время эксплуатации. Однако эти данные не нужно хранить с высокой точностью вечно. База данных временных рядов должна позволять пользователю понижать дискретизацию этих данных с минутной точностью до среднесуточного значения.

Дизайн баз данных временных рядов

Базы данных временных рядов также должны следовать некоторым из следующих принципов проектирования, чтобы оптимизировать данные временных рядов:

  • Масштаб имеет решающее значение: база данных временных рядов должна быть способна обрабатывать высокие скорости записи и запросов, необходимые для распространенных сценариев использования временных рядов, таких как Интернет вещей, мониторинг приложений и финтех.
  • Ни один пункт не является слишком важным: тех, кто собирает данные временных рядов, больше интересует общее поведение системы, а не отдельная точка среди бесчисленных точек, собираемых ежедневно. Поэтому обновления и удаления происходят редко. Ограничение функций удаления и обновления позволяет вам устанавливать приоритеты для больших объемов приема и частоты запросов, а также позволяет пользователям получить ценную информацию о своей системе.

Специально созданные базы данных временных рядов превосходят реляционные базы данных в обработке данных временных рядов. Базы данных временных рядов могут легко обрабатывать большие наборы данных с отметками времени, их можно использовать для мониторинга в реальном времени, и они упрощают управление жизненным циклом данных. Эта простота использования – особенно если TSDB не имеет зависимостей, имеет встроенный графический интерфейс и хорошо интегрируется с другими технологиями – означает более быстрое время запуска для разработчиков приложений, заставляющих данные временных рядов работать в своих проектах.

Анаис Дотис-Георгиу (Anais Dotis-Georgiou) – сторонник разработчиков InfluxData, страстно желая сделать данные красивыми с помощью аналитики данных, искусственного интеллекта и машинного обучения. Она берет данные, которые собирает, и применяет сочетание исследований, изысканий и инженерии, чтобы преобразовать данные в нечто функциональное, ценное и красивое. Когда она не находится за ширмой, вы можете увидеть, как она рисует, потягивается, садится на борт или гонится за футбольным мячом.

Форум новых технологий предоставляет площадку для изучения и обсуждения новых корпоративных технологий с беспрецедентной глубиной и широтой. Выбор является субъективным и основан на нашем выборе технологий, которые мы считаем важными и представляющими наибольший интерес для читателей InfoWorld. InfoWorld не принимает маркетинговые материалы для публикации и оставляет за собой право редактировать весь предоставленный контент. Все запросы отправляйте по адресу newtechforum@infoworld.com.

Авторские права © 2021 IDG Communications, Inc.


#Ценность #данных #временных #рядов #TSDB

Source link