Состоялась главная ежегодная конференция Google — I/O 2024. В ходе мероприятия компания анонсировала несколько ИИ-новинок.

Во-первых, Google продемонстрировала мультимодального ассистента, который способен анализировать видео в реальном времени. Например, можно получить голосовой ответ на запрос, сделанный с помощью камеры смартфона, направленной на объект интереса.

Gemini будет основным ассистентом в Android и обучится взаимодействовать с приложениями и контентом. Он сможет находить информацию в документах и отвечать на вопросы пользователей.

В Android будет внедрена локальная мультимодальная нейросеть Gemini Nano, которая обработает не только текст, но и аудио/видео. Например, это позволит предупреждать о потенциальной опасности во время звонков с неизвестных номеров.

Поиск Google станет более интерактивным, генерируя с помощью ИИ развернутые ответы на сложные запросы пользователей. Кроме того, Google разработала нейросеть Veo, аналогичную Sora от OpenAI, для создания видео по текстовому описанию.

Планируется создание ИИ-агентов, способных выполнять сложные многоступенчатые задачи за пользователя, а также «ИИ-коллег», способных отвечать в рабочих чатах и решать проблемы в проектах.

Источник: Gizmodo