ceph.expert
93 subscribers
3 photos
1 video
51 links
Ceph это лучший sds общего назначения.
Есть вопросы про ceph? Заходите на https://ceph.expert
Download Telegram
Ceph Days NYC: Optimizing RGW Object Storage Mixed Media through Storage Classes and Lua Scripting

Отличный пример того зачем могут пригодиться скрипты в RGW

https://youtu.be/Mj3HokDiN6Y

#ceph #s3 #rgw #radosGW #lua #scripting #optimization
The Ceph Benchmarking Tool

А когда Вы узнали, что для ceph есть офф тулинг для тестов производительности?

https://github.com/ceph/cbt

#ceph #benchmark #tools #cbt
Вышел ceph 16.2.13 (pacific)

Вышел ад в начале мая, но я пропустил.

Разработчики отметили:

* переименована опция mds_max_retries_on_remount_failure в client_max_retries_on_remount_failure

* команда ceph mgr dump выводит поля last_failure_osd_epoch и active_clients на верхнем уровне. Ранее эти поля были вложены в always_on_modules.

Подробнее тут:

https://ceph.com/en/news/blog/2023/v16-2-13-pacific-released/

#ceph #pacific #release #cephexpert
Ceph Reef Freeze Part 2: RGW Performance

Тесты производительности RGW в Reef (18 релиз имеет такое название), сравнение идёт c Quincy.

https://ceph.com/en/news/blog/2023/reef-freeze-rgw-performance/

#ceph #quincy #reef #blog #rgw #performance #tests #hsbench
s3-tests - Compatibility tests for S3 clones

Тулинг с неофициальным набором тестов на совместимость с amazon s3.

https://github.com/ceph/s3-tests

#ceph #s3 #tests #tools
Reddit Challenge Accepted - Is 10k IOPs achievable with NVMes?

Пост отвечает на вопрос может ли ceph выдать в одного клиента 10k iops в режиме rand rw.

https://ceph.io/en/news/blog/2023/reddit-is-10k-IOPs-achieable-with-NVMes/

#ceph #blog #performance #nvme #fio
Вышел ceph 18.2.0 (reef)

Вышел первый стабильный релиз 18 ветки с кодовым названием reef.

Краткое содержание основных изменений, которые принесла 18 ветка:
• RADOS: RocksDB обновлен до версии 7.9.2.
• RADOS: значительно улучшена производительность RocksDB.
• RADOS: команды perf dump и perf schema объявлены устаревшими в пользу команд counter dump и counter schema.
• RADOS: Cache tiering объявлен устаревшим.
• RADOS: доступна новая фича "read balancer" которая позволит балансировать primary PG.
RGW: Поддержка bucket resharding для мультисайт конфигураций.
• RGW:
Значительно улучшена стабильность и консистентность мультисайт репликации.
• RGW: теперь поддерживается сжатие для объектов загружаемых с Server-Side Encryption.
• DASHBOARD: новый улучшеный дашбоард. Алерты и некоторые графики теперь встроены в карточеки.
• RBD: поддержка многоуровневого клиентского шифрования. Шифровать клоны можно отличными от родителя алгоритмами/паролями.
• Telemetry: теперь можно зарегистрироваться и добавить описание для отображения в лидерборде.

Как всегда release notes первого стабильного релиза достаточно объемные.

Подробнее тут:

https://ceph.io/en/news/blog/2023/v18-2-0-reef-released/

P.S. Как обычно не рекомендую катить в прод с ценными даными первый релиз, даже не смотря на то, что его называли стабильным ;)

#ceph #reef #release #cephexpert
Вышел ceph 16.2.14 (pacific)

Разработчики отметили:

* После востановлерия файловой системы в соответсвии с дизастр процедурой, фалы востановленные в lost+found теперь можно удалить.

* Команда ceph mgr dump теперь отображает имя менджера который зарагестрировал радос клиента, в поле name, добавленом к элементу массива
active_clients. Раньше там отображался только адрес.

Подробнее тут:

https://ceph.io/en/news/blog/2023/v16-2-14-pacific-released/

#ceph #pacific #release #cephexpert
Вышел ceph 17.2.7 (Quincy)

10 дней назад вышел 7 релиз из ленейки Quincy.

Разработчики отметили:

* Команда ceph mgr dump теперь отображает имя модуля mgr, зарегистрировавшего клиента RADOS, в поле name, добавленное в элементы массива active_clients. Ранее в массиве active_clients отображался только адрес клиента RADOS модуля.
* Планировщик mClock: планировщик mClock (по умолчанию в Quincy) претерпел существенные улучшения удобства использования и дизайна для решения проблемы медленной заливки. Некоторые важные изменения:
* Профиль "balanced" установлен в качестве профиля mClock по умолчанию, поскольку он представляет компромисс между приоритетом клиентского IO и IO восстановления. Пользователи могут выбрать профиль "high_client_ops", чтобы установить приоритет клиентского IO или профиль "high_recovery_ops" для приоритета IO восстановления.
* Параметры QoS, такие как резервирование и лимит, теперь указываются в виде диапазона от 0,0 до 1,0 от максимальной производительности IOPS OSD.
* Параметры стоимости (osd_mclock_cost_per_io_usec_* и osd_mclock_cost_per_byte_usec_*) были удалены. Стоимость операции теперь определяется с использованием характеристик rand IOPS и максимальной пропускной способности последовательного доступа диска.
* Восстановление объектов в состоянии деградации имеет более высокий приоритет по сравнению с восстановлением неправильно размещенных объектов, поскольку объекты в состоянии деградации представляют проблему безопасности данных, которая не присутствует у просто неправильно размещенных объектов. Поэтому операции backfill с использованием профилей mClock "balanced" и "high_client_ops" могут выглядить медленнее, чем с использованием планировщика "WeightedPriorityQueue" (WPQ).
* Распределение QoS во всех профилях mClock оптимизировано на основе вышеперечисленных исправлений и улучшений.
* Дополнительную информацию см. по адресу: https://docs.ceph.com/en/quincy/rados/configuration/mclock-config-ref/
* RGW: multipart загрузки S3 с использованием шифрования на стороне сервера теперь правильно реплицируются в multisite среде. Ранее реплики таких объектов коррумпировались при расшифровке. Для идентификации этих исходных multipart загрузок можно использовать новый инструмент radosgw-admin bucket resync encrypted multipart. Временная метка LastModified любого определенного объекта увеличивается на 1 нс для повторной репликации в зонах-партнерах. Для развертываний в multisite среде, использующих шифрование на стороне сервера, рекомендуется запустить эту команду для каждого бакета в каждой зоне после обновления всех зон.
* CEPHFS: MDS выгоняет клиентов, не подверждающих свои идентификаторы запросов, что приводит к большому накоплению метаданных и, в результате, к переходу MDS в режим ro из-за превышения порога размера операции RADOS. Конфигурация mds_session_metadata_threshold контролирует максимальный размер, до которого метаданные могут расти.
* CEPHFS: После восстановления файловой системы, следуя процедуре восстановления после катастрофы, восстановленные файлы в директории lost+found теперь могут быть удалены.
* Панель управления: появилась новая страница панели управления с улучшенной компоновкой. Активные предупреждения и некоторые важные диаграммы теперь отображаются внутри карточек. Это можно отключить, вернув предыдущую панель управления, установив ceph dashboard feature disable dashboard.

Подробнее тут:

https://ceph.com/en/news/blog/2023/v17-2-7-quincy-released/

#ceph #quincy #release #cephexpert
Вышел ceph 18.2.1 (reef)

Вышел первый бекпорт релиз в reef и первый релиз с пакетами для Debian.

Разработчики отметили следующие изменеия:

* RGW: multipart загрузки S3 с использованием Server-Side Encryption теперь правильно реплицируются в multi-site конфигурации. Ранее реплики таких объектов были повреждены при расшифровке. Добавлена новая утилита radosgw-admin bucket resync encrypted multipart, которую можно использовать для идентификации оригинальных mulipart загрузок. LastModified timestamp любого идентифицированного объекта увеличивается на 1 нс для повторной репликации. Для multisite развертываний, использующих SSE, рекомендуется выполнить эту команду для каждого бакета в каждой зоне после обновления всех зон.

* CEPHFS: MDS выгоняет клиентов, не подверждающих свои идентификаторы запросов, что приводит к большому накоплению метаданных и, в результате, к переходу MDS в режим ro из-за превышения порога размера операции RADOS. Конфигурация mds_session_metadata_threshold контролирует максимальный размер, до которого метаданные могут расти.

* RGW: В утилиту radosgw-admin добавлены новые инструменты для выявления и устранения проблем с индексами версионированых бакетов. В некоторых сценариях, где клиенты делают параллельные запросы к одному и тому же ключу объекта, могло накапливаться много дополнительных записей индекса. Для проверки наличия лишних записей olh в версионном бакете пользователи могут использовать команду radosgw-admin bucket check olh. При использовании флага --fix лишние записи будут безопасно удалены. Кроме того, возможно, что некоторые версионные бакеты поддерживают лишние несвязанные объекты, которые невозможно отлистить через API S3/Swift. Чтобы проверить наличие несвязанных записей в версионном бакете, пользователи теперь могут запустить radosgw-admin bucket check unlinked. При использовании флага --fix несвязанные объекты будут безопасно удалены. И, наконец, третья проблема заключается в том, что статистика индекса версионированого бакета могла считаться неправильно. Утилиты для пересчета статистики версионированых бакетов также имели ошибку и ранее не могли исправить эти неточности. Этот релиз устраняет эти проблемы, и теперь пользователи могут ожидать, что команда radosgw-admin bucket check будет давать правильные результаты. Мы рекомендуем пользователям с версионными бакетами, особенно теми, которые существовали в предыдущих релизах, использовать эти новые инструменты для проверки наличия проблем в их бакетах и их устранения.

* mgr/snap-schedule: Для кластеров с несколькими файловыми системами CephFS все команды snap-schedule теперь ожидают аргумент '--fs'.

* RADOS: Теперь будет отображаться предупреждение о состоянии POOL_APP_NOT_ENABLED, если приложение не заданно для пула, независимо от того, используется ли пул или нет. Всегда добавляйте метку application к пулу используя ceph osd pool application enable, чтобы избежать предупреждении POOL_APP_NOT_ENABLED для этого пула. Пользователь может временно отключить это предупреждение, используя ceph health mute POOL_APP_NOT_ENABLED.

* Старница обзора для rgw теперь показывает общее состояние компонентов rgw

* Добавлена поддержка управления RGW Multi-site и Ceph FS Subvolumes and groups

* Исправлены несколько ошибок и проблем в новом дашборде, таких как поломаный макет, некорректные значения некоторых метрик, и введено всплывающее окно для отображения подробностей при наличии предупреждений HEALTH_WARN или HEALTH_ERR

Еще больше фиксов тут:

https://ceph.io/en/news/blog/2023/v18-2-1-reef-released/

#ceph #reef #release #cephexpert
radosgw_usage_exporter

Мониторинг и предоставление статистики использования S3 – достаточно стандартная задача, но в стандартном экспортере MGR отсутствуют данные по пользователям и тому, как они утилизируют S3.

Для решения этой задачи я рекомендую использовать https://github.com/blemmenes/radosgw_usage_exporter.

#rgw #prometheus #monitoring #s3
1TB/s

В статье рассказывается как собрать кластер который выдаёт 1ТБ/с.

https://ceph.io/en/news/blog/2024/ceph-a-journey-to-1tibps/

#ceph #reef #blog #performance
Вышел ceph 16.2.15 (pacific)

Ожидается что это будет последний релиз 16 ветки, а значит пора подумать над апгрейдом.

Разработчики отметили:

* Вывод

shell ceph config dump --format <json|xml>
будет отображать локализованные названия опций вместо их нормализованной версии. Например, будет отображаться
mgr/prometheus/x/server_port
вместо
mgr/prometheus/server_port
.

* CEPHFS: MDS выгоняет клиентов, не подверждающих свои идентификаторы запросов, что приводит к большому накоплению метаданных и, в результате, к переходу MDS в режим ro из-за превышения порога размера операции RADOS. Конфигурация mds_session_metadata_threshold контролирует максимальный размер, до которого метаданные могут расти.

* RADOS: C++ API get_pool_is_selfmanaged_snaps_mode объявлен устаревшим из-за его подверженности ложно негативным результатам. Его безопасной заменой является pool_is_in_selfmanaged_snaps_mode.

* RBD: При сравнении с началом времени (fromsnapname == NULL) в режиме fast-diff (whole_object == true с включенной и допустимой функцией fast-diff изображения), diff-iterate теперь гарантированно выполняется локально, если доступна эксклюзивная блокировка. Это приводит к значительному улучшению производительности для синхронизации live дисков QEMU и резервного копирования.

Подробнее тут:

https://ceph.com/en/news/blog/2024/v16-2-15-pacific-released/

#ceph #pacific #release #cephexpert
ceph.expert
Вышел ceph 18.2.1 (reef) Вышел первый бекпорт релиз в reef и первый релиз с пакетами для Debian. Разработчики отметили следующие изменеия: * RGW: multipart загрузки S3 с использованием Server-Side Encryption теперь правильно реплицируются в multi-site конфигурации.…
Вышел ceph 18.2.1 (reef)

Вышел выторой релиз в ветке reef, это хотфикс релиз устранящий несколько багов влключая поадения порма.

Разработчики отметили следующие изменеия:

* mgr/Prometheus: усовершенствовали проверку доступности оркестратора для предотвращения сбоев в модуле prometheus во время запуска. Введены дополнительные проверки для обработки идентификаторов daemon_id, сгенерированных в среде Rook, это должно предотвратить потенциальные проблемы при генерации метаданных RGW metrics.

Еще больше подробностей тут:

https://ceph.com/en/news/blog/2024/v18-2-2-reef-released/

#ceph #reef #release #cephexpert
Auto-tiering Ceph Object Storage

Серия постов показывающая как можно автоматически раскладывать объекты с3 по разным слоям хранения с помощью lua скриптов появивишихся в RGW.

PART 1 - Ceph Object storage basics and why you’d want to set up different storage classes
PART 2 - How to use Lua scripting to automatically assign objects to different storage classes based on size
PART 3 - More advanced Lua scripting to dynamically match objects to storage classes based on regex matching to object names

Так же про это рассказывали год назад на конфиренции в NY
https://t.me/cephexpert/37

#ceph #s3 #rgw #radosGW #lua #scripting #optimization #blog
Вышел ceph 18.2.4 (reef)

Вышел четвёртый бекпорт релиз в ветке reef.

Ранняя сборка этого релиза была случайно упакована и опубликована как 18.2.3 проектом Debian в апреле. Этот релиз 18.2.3 не должен использоваться, поэтому официальный релиз был переименован в v18.2.4, чтобы избежать дальнейшей путаницы.

Образы контейнеров v18.2.4 основанны на CentOS 9 и могут быть несовместимы с более старыми ядрами (например, Ubuntu 18.04) из-за различий в методах создания потоков. Пользователи, обновляющиеся до контейнеров v18.2.4 на более старых версиях ОС, могут столкнуться со сбоями во время выполнения pthread_create. Для обходных путей обратитесь к связанному трекеру https://tracker.ceph.com/issues/66989. Однако разработчики рекомендуют обновить вашу ОС, чтобы избежать этой неподдерживаемой комбинации.

Разработчики отметили следующие изменеия:

* RBD: При сравнении с началом времени (fromsnapname == NULL) в режиме fast-diff (whole_object == true с включенной и допустимой функцией fast-diff образа), diff-iterate теперь гарантированно выполняется локально, если доступна эксклюзивная блокировка. Это приводит к значительному улучшению производительности для синхронизации live дисков QEMU и резервного копирования.
* RADOS: C++ API get_pool_is_selfmanaged_snaps_mode был объявлен устаревшим из-за возможности ложноотрицательных результатов. Его безопасной заменой является pool_is_in_selfmanaged_snaps_mode.
* RBD: Добавлена опция --image-id для командной строки rbd children, чтобы она могла работать с образами в корзине.

Еще больше подробностей тут:

https://ceph.io/en/news/blog/2024/v18-2-4-reef-released/

#ceph #reef #release #cephexpert