реклама
Новости Software

Насколько огромен YouTube? Исследователи насчитали более 13 млрд роликов, а большинство просмотров генерирует 4 % из них

Оценить объём той или иной интернет-платформы достаточно проблематично. Однако это не останавливает исследователей. В их число входит доцент кафедры государственной политики, коммуникаций и информации Массачусетского технологического института (MIT), сооснователь блог-агрегатора Global Voices, интернет-активист и блогер Итан Цукерман (Ethan Zuckerman), который вместе с коллегами подсчитал, что на YouTube опубликовано более 13,325 млрд роликов.

 Источник изображения: Pixabay

Источник изображения: Pixabay

Некоторые интернет-платформы, такие как Reddit, в течение многих лет позволяли собирать статистические данные с помощью специальных API. За счёт этого исследователи могли понять, например, какую часть пользователей платформы интересуют мемы или криптовалюта, а какую — психическое благополучие и настольные игры. Однако в этом году Reddit закрыла возможность обработки публикуемых на площадке постов. Аналогичным образом поступила соцсеть X (бывшая Twitter), которая прежде позволяла с помощью соответствующего API делать статистическую выборку твитов, за счёт чего исследователи могли понять, что интересует пользователей соцсети.

Как бы ни были интересны Reddit и X, они гораздо менее популярны, чем YouTube, с которым взаимодействуют почти все пользователи интернета. По данным источника, в настоящее время видеохостинг Google используют 93 % пользователей интернета подросткового возраста. Ближайшими по популярности в этой возрастной категории пользователей являются TikTok и Snapchat, с которыми взаимодействуют регулярно 63 % и 60 % подростков соответственно.

Хотя у YouTube есть хорошо задокументированный API, не существует надёжного способа получить случайную, репрезентативную выборку на YouTube. Вместо этого в большинстве исследований на YouTube изучается либо коллекция видео (все ролики на каналах выбранного набора пользователей), либо видео, найденные по рекомендациям. Любой из этих методов позволяет провести хорошее исследование, но ни один из них не позволяет рассчитать размер YouTube, т.е. попытаться подсчитать количество опубликованных на платформе роликов.

Для выполнения поставленной задачи исследователи обратились за помощью к Джейсону Баумгартнеру (Jason Baumgartner), который является создателем проекта по парсингу Reddit под названием PushShift и обладает обширными знаниями в сфере работы с недокументированными API для сбора данных. В случае YouTube речь шла об инструменте InnerTube, с помощью которого Джейсон предложил создавать случайные URL-адреса YouTube и проверять, действительно ли они существуют. URL-адрес на YouTube выглядит следующим образом: https://www.youtube.com/watch?v=vXPJVwwEmiM, где изменяются значения после «watch?v=». Первые 10 из 11 символов ссылки могут состоять из заглавных и строчных букв английского алфавита, цифр от 0 до 9 и знака «_». Последний символ может принимать лишь одно из 16 значений.

 Источник изображения: tubestats.org

Источник изображения: tubestats.org

В итоге было подсчитано, что существует 264 возможных URL-адресов YouTube (примерно 18,4 квинтиллиона ссылок). Хотя роликов на YouTube много, но очевидно, что не настолько. Если предположить, что существует 1 млрд роликов на YouTube, то в случае набора URL наугад удавалось бы получать верный адрес только в одной из 18,4 млрд попыток. Исследователи назвали этот метод «пьяный дозвон», после оптимизации которого за несколько месяцев им удалось выявить 10 тыс. действительно случайных роликов на платформе. В ходе ведения этой деятельности исследователи также установили, что YouTube обычно рекомендует к просмотру ролики, существенно отличающиеся от «средних» видео на платформе. Дело в том, что платформа рекомендует видео с не менее чем 10 тыс. просмотров, тогда как «средний» ролик на площадке имеет лишь 39 просмотров.

Возвращаясь к «пьяному набору» исследователи предлагают сравнение: если вы набираете номера на 413 из диапазона 413-000-0000 — 413-999-9999, то вам предстоит перебрать 10 млн возможных номеров. Если один из 100 телефонных звонков оказывается удачным, то это означает, что телефонный номер на 413 в упомянутом диапазоне есть у 100 тыс. человек.

В случае YouTube «пьяный набор» одновременно проверял примерно 32 тыс. адресов и «попадание» фиксировалось каждые 50 тыс. наборов или около того. В итоге исследователям удалось подсчитать, что объём YouTube составляет 13 235 821 970 видео. Это и другие статистические значения каждые несколько недель обновляются на площадке tubestat.org. Как только удалось определить количество роликов на платформе, исследователи смогли подсчитать другие статистические показатели. Например, по возрасту роликов в случайной выборке можно понять, как быстро растёт YouTube. По оценкам исследователей, только в 2023 году на площадке было опубликовано более 4 млрд новых видео. Также было подсчитано, что доля роликов с более чем 10 тыс. просмотров составляет лишь 4 % от общего объёма размещённого на YouTube контента, но при этом они составляют львиную долю от общего количества просмотров.

Более важно то, что исследователи в конечном счёте сумели создать значительно более надёжный способ изучения YouTube, чем упомянутый ранее «пьяный набор». Метод формирования случайной выборки видео является надёжным, поскольку он последовательно перебирает всё адресное пространство. Исследователи намерены продолжить работу с YouTube, а также обновлять разные статистические показатели платформы. Более подробные данные на основе 85-страничной исследовательской работы недавно были опубликованы в журнале Journal for Quantitative Description.

Источник:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Вечерний 3DNews
Каждый будний вечер мы рассылаем сводку новостей без белиберды и рекламы. Две минуты на чтение — и вы в курсе главных событий.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Центр ФСБ по компьютерным инцидентам разорвал договор с Positive Technologies 2 ч.
Android упростит смену смартфона — авторизовываться в приложениях вручную больше не придётся 2 ч.
OpenAI обдумывает создание собственного интернет-браузера и поисковых систем для противостояния Google 2 ч.
Apple разрабатывает LLM Siri — она будет больше похожа на человека и выйдет с iOS 19 3 ч.
Новая статья: Верные спутники: 20+ полезных Telegram-ботов для путешественников 9 ч.
Итоги Golden Joystick Awards 2024 — Final Fantasy VII Rebirth и Helldivers 2 забрали больше всех наград, а Black Myth: Wukong стала игрой года 10 ч.
В программу сохранения классических игр от GOG вошли S.T.A.L.K.E.R. Shadow of Chernobyl и Call of Pripyat, а Clear Sky — на подходе 11 ч.
Star Wars Outlaws вышла в Steam с крупным обновлением и дополнением про Лэндо Калриссиана 13 ч.
Рекордная скидка и PvP-режим Versus обернулись для Warhammer: Vermintide 2 полумиллионом новых игроков за неделю 14 ч.
Новый трейлер раскрыл дату выхода Mandragora — метроидвании с элементами Dark Souls и нелинейной историей от соавтора Vampire: The Masquerade — Bloodlines 15 ч.
Positive Technologies получила сертификат ФСТЭК на межсетевой экран PT NGFW 2 ч.
Google готова навсегда отменить разработку планшета Pixel Tablet 3 2 ч.
Nvidia предупредила о предстоящем дефиците GeForce в ближайшие месяцы 6 ч.
Представлен внешний SSD SanDisk Extreme на 8 Тбайт за $800 и скоростной SanDisk Extreme PRO с USB4 10 ч.
Представлен безбуферный SSD WD_Black SN7100 со скоростью до 7250 Мбайт/с и внешний SSD WD_Black C50 для Xbox 10 ч.
Новая статья: Обзор ноутбука ASUS Zenbook S 16 (UM5606W): Ryzen AI в естественной среде 10 ч.
Redmi показала флагманский смартфон K80 Pro и объявила дату его премьеры 12 ч.
Астрономы впервые сфотографировали умирающую звезду за пределами нашей галактики — она выглядит не так, как ожидалось 15 ч.
Представлена технология охлаждения чипов светом — секретная и только по предварительной записи 16 ч.
Японская Hokkaido Electric Power намерена перезапустить ядерный реактор для удовлетворения потребности ЦОД в энергии 16 ч.