реклама
Новости Software

LG представила нейросеть Captioning AI, которая создаёт текстовые описания для изображений

Одно из подразделений компании LG представило генеративную систему ИИ Captioning AI, которая может распознавать элементы изображения и генерировать для них описания и ключевые слова — трудно переоценить пользу, которую подобная технология способна оказать, например, при систематизации баз фотоснимков крупных компаний.

 Возможно, не все изображения будет легко описать. Источник изображения: Rick Rothenberg/unsplash.com

Возможно, не все изображения будет легко описать. Источник изображения: Rick Rothenberg/unsplash.com

Представители LG AI Research, занимавшейся разработкой Captioning AI, выступили на мероприятии Computer Vision and Pattern Recognition 2023, крупнейшей в мире конференции, посвящённой «компьютерному зрению» — она проходила в воскресенье в Ванкувере (Канада). Как сообщили в LG, сервис основан на разработанной LG AI Research технологии Zero-shot Image Captioning, позволяющей ИИ «понимать» и описывать объекты или сцены, которые нейросеть оценивает впервые без дополнительных подсказок, на основе своего предыдущего опыта — так же, как и люди.

В компании объяснили, что технология отличается от ИИ-сервисов вроде Midjourney, в которых всё происходит ровно наоборот — пользователи вводят текст или загружают картинку, на основе которых ИИ генерирует собственное творение. Создание «субтитров» к картинкам может показаться довольно лёгким, поскольку концепция не нова. Тем не менее, технология вышла на новый уровень. Например, искусственный интеллект действительно может делать выводы и описывать то, чего он не «видел» никогда раньше — посмотреть на пейзаж или человека и вычислить, о каком именно месте идёт речь. Технология позволяет распознавать на изображении фон, персонажей и даже активность и описывать взаимодействие элементов.

 Источник изображения: LG

Источник изображения: LG

Captioning AI может генерировать текстовые описания и ключевые слова для 10 тыс. изображений менее чем за два дня, что в теории позволяет повысить эффективность и продуктивность для компаний, которым необходимо справляться с большими массивами изображений. В среднем система может генерировать 5 предложений и 10 ключевых слов за 10 секунд.

Сервис разработан при сотрудничестве с Shutterstock, одной из крупнейших платформ для размещения визуального контента — от изображений до видео. LG AI Research сотрудничала с этой американской компанией ранее и намерена делать это и впредь расширяя сотрудничество и с другими партнёрами. Как сообщили в Shutterstock, технология Caption AI развивается благодаря «раннему доступу» к программе десяти глобальных клиентов.

Источники:

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.
Материалы по теме
window-new
Soft
Hard
Тренды 🔥
Более трети российских компаний удаляют персональные данные вручную 2 ч.
ИИ-лаборатория Meta, создавшая модель Llama, постепенно угасает — в компании назвали это «новым началом» 2 ч.
Двухлетняя модель GPT-4 скоро исчезнет из ChatGPT, уступив место более свежей GPT-4o 9 ч.
ChatGPT обошёл Instagram и TikTok, став самым скачиваемым приложением в мире 9 ч.
Новая статья: inZOI — прощайте, симы. Предварительный обзор 14 ч.
Студия выходцев из Blizzard показала Causal Loop — вдохновлённую Portal и «Интерстеллар» головоломку, где нужно перезаписывать реальность 15 ч.
SaaS в России продолжает расти, однако не все направления показывают положительную динамику 16 ч.
В Ирландии проверят законность обучения ИИ-модели Grok на постах европейцев в X 16 ч.
«С каждым трейлером хочется поиграть всё больше и больше»: тизер новой фракции из Heroes of Might & Magic: Olden Era заинтриговал фанатов 17 ч.
«Я так долго об этом мечтал»: моддер добавил в Dark Souls Remastered бесшовный кооператив на шестерых 19 ч.
Asus представила геймерский мини-ПК ROG NUC 2025 — Core Ultra 9 и GeForce RTX 5080 в трёхлитровом корпусе за $3335 43 мин.
PowerColor скоро выпустит видеокарту Radeon RX 9070 XT Red Devil с уникальными задними пластинами 2 ч.
Близкую к нам галактику Малое Магелланово Облако прямо сейчас разрывает на части, выяснили японские учёные 2 ч.
Doom запустили на коробке от коллекционного издания Doom 3 ч.
В Книгу рекордов Гиннесса попал электромотоцикл с самым большим пробегом на одном заряде 3 ч.
AR-очки Google на платформе Android XR выпустит Samsung в 2026 году 3 ч.
SK hynix благодаря спросу на HBM впервые стала лидером по выручке среди производителей DRAM 6 ч.
Nvidia и Alphabet вложились в капитал стартапа одного из основателей OpenAI 8 ч.
Белый дом может сократить бюджет NASA на $5 млрд, в том числе на научные программы 9 ч.
В Пермском Политехе придумали, как передавать данные внутри скважины по буровому раствору 16 ч.