Alibaba представила мультимодальную нейросеть, которая может за четыре секунды проанализировать двухчасовое видео

Инженеры китайской компании Alibaba представили мультимодальную модель машинного обучения mPLUG-Owl3. С её помощью можно анализировать текст, изображения и видео. Разработчики делают упор именно на скорость работы нейросети, отмечая, что на обработку двухчасового видео уйдёт всего четыре секунды.

В основе mPLUG-Owl3 используется модель Qwen2, которую доработали и оптимизировали. Благодаря этому в шесть раз сократилось время ожидания первого токена, а на одной видеокарте A100 можно обрабатывать по 400 изображений в секунду. Кроме того, инженеры использовали специальный блок HATB (Hyper Attention Transformer), который связывает визуальные и текстовые признаки. Так, нейросеть, например, может искать визуальные образы на основе текста.

Код проекта открыт и опубликован на GitHub. Также инженеры поделились всем необходимым для работы на портале Hugging Face и его китайском аналоге Model Scope. Есть полный текст исследования, в котором разработчики подробно рассказали о работе mPLUG-Owl3.

Код инференса для работы с изображениямиfrom PIL import Image from transformers import AutoTokenizer, AutoProcessor from decord import VideoReader, cpu # pip install decord model_path = ‘mPLUG/mPLUG-Owl3-7B-240728’ tokenizer = AutoTokenizer.from_pretrained(model_path) processor = model.init_processor(tokenizer) image = Image.new(‘RGB’, (500, 500), color=’red’) messages = [ {«role»: «user», «content»: «»»<|image|> Describe this image.»»»}, {«role»: «assistant», «content»: «»} ] inputs = processor(messages, images=image, videos=None) inputs.to(‘cuda’) inputs.update({ ‘tokenizer’: tokenizer, ‘max_new_tokens’:100, ‘decode_text’:True, }) g = model.generate(**inputs) print(g)

Код инференса для работы с видеоfrom PIL import Image from transformers import AutoTokenizer, AutoProcessor from decord import VideoReader, cpu # pip install decord model_path = ‘mPLUG/mPLUG-Owl3-7B-240728’ tokenizer = AutoTokenizer.from_pretrained(model_path) processor = model.init_processor(tokenizer) messages = [ {«role»: «user», «content»: «»»<|video|> Describe this video.»»»}, {«role»: «assistant», «content»: «»} ] videos = [‘/nas-mmu-data/examples/car_room.mp4’] MAX_NUM_FRAMES=16 def encode_video(video_path): def uniform_sample(l, n): gap = len(l) / n idxs = [int(i * gap + gap / 2) for i in range(n)] return [l[i] for i in idxs] vr = VideoReader(video_path, ctx=cpu(0)) sample_fps = round(vr.get_avg_fps() / 1) # FPS frame_idx = [i for i in range(0, len(vr), sample_fps)] if len(frame_idx) > MAX_NUM_FRAMES: frame_idx = uniform_sample(frame_idx, MAX_NUM_FRAMES) frames = vr.get_batch(frame_idx).asnumpy() frames = [Image.fromarray(v.astype(‘uint8’)) for v in frames] print(‘num frames:’, len(frames)) return frames video_frames = [encode_video(_) for _ in videos] inputs = processor(messages, images=None, videos=video_frames) inputs.to(‘cuda’) inputs.update({ ‘tokenizer’: tokenizer, ‘max_new_tokens’:100, ‘decode_text’:True, }) g = model.generate(**inputs) print(g)

Источник: habr.com

Учёные обнаружили вторую планету в системе TOI-1408, которая находится в 455 световых годах от Земли и имеет уникальную орбиту

Чт Авг 22 , 2024

Планеты TOI-1408 b и TOI-1408 c имеют соотношение периодов 2:1, что может стабилизировать их орбиты Учёные обнаружили, что у далёкого «горячего Юпитера» есть планетарный компаньон. Две планеты, TOI-1408 b и TOI-1408 c, обращаются вокруг звезды TOI-1408, расположенной в 455 световых годах от Земли. TOI-1408 b — это газовый гигант, который […]

Учёные обнаружили вторую планету в системе TOI-1408, которая находится в 455 световых годах от Земли и имеет уникальную орбиту

Приглашаем на вебинар «Пленочные конденсаторы Hongfa для источников питания и силовой электроники» (10.09.2024)

Прецизионный измеритель малых токов и больших сопротивлений — электрометр АКИП-2701

В ЛЭТИ создали источник бесперебойного питания для электроснабжения Арктической зоны

Новые беспроводные датчики EClerk-WS от НПК Рэлсиб, Новосибирск

В ТУСУРе создаётся отечественный профилометр, необходимый при производстве микроэлектроники

«Звезда» создала два преобразователя напряжения для замещения импорта

АО «РЕШЕТНЁВ» оптимизирует бортовые приборы для нового спутника связи

Ростех впервые показал мобильную спутниковую станцию с системой самонаведения

В ЛЭТИ разработали испытательный моделирующий стенд для высокоточной калибровки навигационных систем

ROHM разработала самый миниатюрный в отрасли КМОП операционный усилитель, оптимизированный для смартфонов и компактных устройств Интернета вещей

Вышел Chrome 128

Lingo Telecom согласилась заплатить $1 млн для урегулирования иска регулятора связи за пропуск фейкового робозвонка

В «Лаборатории Касперского» подтвердили усиление в этом году DDoS-атак на операторов связи РФ

Alibaba представила мультимодальную нейросеть, которая может за четыре секунды проанализировать двухчасовое видео

Nvidia «оживит» NPC в игре Mecha Break с помощью нейротехнологии ACE

Midjourney запустила веб-приложение для генерации изображений

Роскомнадзор объяснил сбой в рунете DDoS-атакой на операторов связи, которая была оперативно отражена

Miro остаётся доступной в России для пользователей бесплатных аккаунтов

Анонс презентации Apple, появившийся в социальных сетях, оказался фейковым

В «Яндекс Браузере» появились субтитры на английском языке и их перевод для всех сайтов