Meta-nın ImageBind AI insan qavrayışını təqlid edə bilər

Meta kodu açıq girişli süni intellekt adı altında dərc edir şəkil bağlamaq, insanların ətraflarını necə qavradıqları və ya təsəvvür etdiklərinə bənzər məlumatlar arasındakı əlaqələri proqnozlaşdırır. Midjourney, Stable Diffusion və DALL-E 2 kimi görüntü generatorları sözləri şəkillərə bağlayaraq, sadəcə mətn təsvirinə əsaslanan vizual səhnələr yaratmağa imkan versə də, ImageBind bundan kənara çıxır. O, mətni, şəkilləri və ya videonu, audionu, 3D ölçmələrini, temperatur məlumatlarını və hərəkət məlumatlarını birləşdirə bilər və bunu hər fürsətdə əvvəlcədən təlimə ehtiyac olmadan edir. Bu, mətn sorğusu, şəkil və ya audio (və ya onların birləşməsi) kimi sadə girişlərdən mürəkkəb mühitlər yarada biləcək çərçivənin ilkin mərhələsidir.

Metaverse Layihəsi

ImageBind-i maşın öyrənməsinin insan öyrənməsinə yaxınlaşması kimi düşünə bilərsiniz. Məsələn, dinamik bir mühitdə, məsələn, məşğul şəhər küçəsində dayanırsınızsa, beyniniz (əsasən şüursuz olaraq) yoldan keçən avtomobillər, hündür binalar, hava və s. . İnsanlar və digər heyvanlar bizim genetik üstünlüklərimiz üçün bu məlumatları emal etmək üçün təkamül ediblər: sağ qalmaq və DNT-mizi ötürmək. (Ətrafınız haqqında nə qədər çox bilsəniz, daha yaxşı yaşamaq və inkişaf etmək üçün təhlükədən qaça və ətrafınıza uyğunlaşa bilərsiniz). Kompüterlər heyvanların multisensor əlaqələrini təqlid etməyə yaxınlaşdıqca, yalnız məhdud məlumat parçaları əsasında tam reallaşdırılmış səhnələr yaratmaq üçün bu əlaqələrdən istifadə edə bilərlər.

Beləliklə, siz Midjourney-dən “çimərlik topunda tarazlaşan Gandalf kostyumunda basset iti” yaratmaq və həmin qəribə mənzərənin nisbətən real fotosunu əldə etmək üçün istifadə edə bilsəniz də, ImageBind kimi multimodal süni intellekt aləti itlə uyğun video yarada bilər. ətraflı qonaq otağı, otaq temperaturu və itin və səhnədəki hər kəsin dəqiq yeri də daxil olmaqla səslər. Meta tədqiqatçıları tərtibatçı yönümlü bloqlarında qeyd edirlər: "Bu, statik şəkilləri audio göstərişlərlə birləşdirərək onlardan animasiyalar yaratmaq üçün əla fürsət yaradır". "Məsələn, yaradıcı bir təsviri zəngli saat və banlayan xoruzla birləşdirə və saatı seqmentlərə bölmək və hər ikisini video ardıcıllıqla canlandırmaq üçün xoruzu və ya zəngli saatın səsini seqmentləşdirmək üçün audio işarədən istifadə edə bilər."

Meta

Bu yeni oyuncaqla başqa nə edilə biləcəyinə gəlincə, o, açıq şəkildə Meta-nın əsas ambisiyalarından birinə işarə edir: VR, qarışıq reallıq və metaspace. Məsələn, tam reallaşdırılmış 3D səhnələri (səs, hərəkət və s. ilə) tez qura bilən gələcək qulaqlıq təsəvvür edin. Yaxud virtual oyun tərtibatçıları dizayn prosesində zəhmətkeş işin əhəmiyyətli bir hissəsini xilas etmək üçün nəhayət ondan istifadə edə bilərlər. Eyni şəkildə, məzmun yaradıcıları yalnız mətn, şəkillər və ya audio əsasında real səsyazmaları və hərəkətli immersiv videolar yarada bilər. ImageBind kimi alətin görmə və ya eşitmə qüsuru olan insanlara ətraf mühiti daha yaxşı başa düşməsinə kömək etmək üçün real vaxt rejimində multimedia təsvirləri yaratmaqla əlçatanlıqda yeni qapıları necə açdığını təsəvvür etmək də asandır.

Həmçinin maraqlıdır: Süni intellektə əsaslanan ən yaxşı alətlər

"Tipik AI sistemlərində, hər bir müvafiq modallıq üçün xüsusi bir yerləşdirmə (yəni, məlumatların və onların maşın öyrənməsində əlaqələrini təmsil edə bilən rəqəmlərin vektorları) var" dedi Meta. “ImageBind göstərir ki, modallıqların hər bir fərdi kombinasiyası ilə məlumatlar üzərində məşq etmədən çoxlu modallıqlar üçün ümumi yerləşdirmə məkanı yaratmaq mümkündür. Bu vacibdir, çünki tədqiqatçılar, məsələn, məşğul şəhər küçəsindən audio məlumatları və istilik məlumatları və ya dərinlik məlumatları və dənizkənarı uçurumun mətn təsvirini ehtiva edən nümunələrlə verilənlər bazası yarada bilməzlər.

Meta hesab edir ki, bu texnologiya nəhayət, belə demək mümkünsə, indiki altı “hiss”dən kənara çıxacaq. "Hazırkı tədqiqatımızda altı üsulu araşdırsaq da, inanırıq ki, toxunma, danışma, qoxu və fMRI beyin siqnalları kimi mümkün qədər çox hissləri birləşdirən yeni modallıqların tətbiqi daha zəngin insan mərkəzli AI modellərinə imkan verəcəkdir." Bu yeni qum qutusunu araşdırmaqda maraqlı olan tərtibatçılar Meta-nın açıq mənbə koduna dalmaqla başlaya bilərlər.

Həmçinin oxuyun:

JereloEngadget

Qeydiyyatdan keçmək

0 Şərhlər

Daxil edilmiş rəylər

Bütün şərhlərə baxın

Digər məqalələr

Meta-nın ImageBind AI insan qavrayışını təqlid edə bilər

Son şərhlər