site.btaINSAIT представи първия генеративен модел за разбиране на фотореалистично 3D съдържание


Институтът за компютърни науки, изкуствен интелект и технологии (INSAIT) към Софийския университет „Св. Климент Охридски“ (СУ) представи първия в света генеративен модел, който носи името GaussianVLM. Той съчетава компютърно зрение и естествен език за разбиране на фотореалистично 3D съдържание, съобщиха от пресцентъра на университета.
Само седмица след публикуването си, научната статия, описваща модела, вече се нарежда сред десетте най-четени в света според класацията Scholar Inbox, което свидетелства за значимия интерес от страна на международната академична общност.
GaussianVLM предоставя възможност на роботизирани системи да анализират реални триизмерни сцени въз основа на обикновено видео, заснето с потребителска камера, без необходимост от специализиран хардуер.
Моделът може да отговаря на въпроси като „Какво има на масата?“ или „Има ли достатъчно места за всички гости?“, демонстрирайки разбиране на цялостната пространствена и семантична структура на средата, обясниха от СУ.
GaussianVLM е първият модел, който поддържа въпроси без предварително зададени езикови ограничения и който може ефективно да обработва мащабни 3D сцени. Значителна иновация е компресирането на визуалната информация – от над 40 000 елемента до едва 132 токена, което позволява бърза и ефективна обработка от големи езикови модели, уточниха от университета.
/ИПД
/ВБ/
Потвърждение
Моля потвърдете купуването на избраната новина