谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用。

news/2025/2/27 6:21:12

去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。

2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。

PaliGemma 2 mix 有什么新功能?

  • 一个模型可完成多项任务:PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。

  • 适合开发人员的尺寸:借助不同的模型尺寸(3B、10B 和 28B 参数)和分辨率(224px 和 448px),使用最适合您需求的模型。

  • 与您喜欢的框架一起使用:利用您喜欢的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已经在使用原始的 PaliGemma 混合检查点,则可以直接升级到 PaliGemma 2,而无需进行任何更改。该模型根据提示方式执行不同的任务。

效果展示

检测

  • 任务:检测(PaliGemma-2-3b-mix-224)

  • 输入:“detect android\n”

结果

多物体检测

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)

  • 输入:“检测椅子;桌子\n”

结果

  • 餐厅内物品的多物体检测

结果:

光学字符识别 (OCR)

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)

  • 输入-“ocr\n”

结果:

分割

  • 任务:分割 (PaliGemma-2-3b-mix-224)

  • 输入-“segment cat\n”

结果

问答

  • 任务:问答 (PaliGemma2-mix-3b-448)

  • 输入:“答案 en 牛站在哪里?\n”

结果

beach

字幕

  • 输入:“caption en\n”

结果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光学字符识别 (OCR)

结果:

  • WARNING

  • DANGEROUS

  • RIP CURRENT

立即开始

  • 试用:https://huggingface.co/spaces/google/paligemma2-10b-mix

  • 模型:https://www.kaggle.com/models/google/paligemma-2/

  • 运行:https://ai.google.dev/gemma/docs/paligemma/inference-with-keras

  • 部署:https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma


http://www.niftyadmin.cn/n/5869633.html

相关文章

智能合约安全 | 合约无效化攻击

目录: 智能合约安全 合约无效化攻击 合约自毁函数 selfdestruct 攻击实现 漏洞防御 总结 智能合约安全 合约无效化攻击 合约无效化攻击类同于web安全中的逻辑漏洞中的一种 我们这里拿一个典型的例子来讲解 有这样一份智能合约, 每个人可以向其中发送1 eth 第七个…

vue测试:单元测试、组件测试、端到端测试

1、单元测试:单元测试通常适用于独立的业务逻辑、组件、类、模块或函数,不涉及 UI 渲染、网络请求或其他环境问题。 describe(increment, () > {// 测试用例 }) toBe():用于严格相等比较(),适用于原始类…

win11本地部署deepseek大模型(安装ollama+docker+open-webui)最终实现自己的项目可通过API调用投喂数据后的模型

硬件配置:笔记本win11,内存32G,CPU锐龙7 ,无独显;只能考虑deepseek-r1:1.5b模型。 第一步:安装Ollama 此处不过多累赘了,https://ollama.com/官网选择对应的系统版本下载即可。 需要注意的是…

前端关于Cursor编辑器的了解与深度使用及对工作的便利

1. 什么是 Cursor 编辑器? Cursor 是一款基于 AI 的现代代码编辑器,类似于 VS Code,但内置了强大的 AI 功能。它的核心目标是帮助开发者更快、更智能地编写代码。 主要特点: AI 驱动的代码补全:提供上下文相关的智能代码建议。代码生成与修复:通过自然语言描述生成代码…

(功能测试)第五章 APP性能测试 常用的APP命令格式 补充与总结

app性能测试 solopi 工具监控性能数据 实时监控所选项的各类数据的变化 性能测试就是记录性能数据 从而去分析是否是存在有异常 使用工具去监控数据 查看录制数据 可以持续使用两个小时去查看性能的使用情况 重点是对拿到的数据去进行分析 内存数据查看 性能指标有如下内容&a…

react 中,使用antd layout布局中的sider 做sider的展开和收起功能

一 话不多说,先展示效果: 展开时: 收起时: 二、实现代码如下 react 文件 import React, {useState} from react; import {Layout} from antd; import styles from "./index.module.less"; // 这个是样式文件&#…

安装react报错

安装react报错 背景 执行命令npx create-react-app my-app,然后出现报错unable to resolve dependency tree 解决: 出现这个报错是因为依赖包版本出现冲突,查看package.json可以看到react版本是19.0.0,但是testing-library/rea…

理解梯度消失与梯度爆炸及其缓解策略

目录 理解梯度消失与梯度爆炸及其缓解策略 一、梯度消失与梯度爆炸的概念 1. 梯度消失 2. 梯度爆炸 二、缓解梯度消失与爆炸的策略 1. 改进权重初始化 2. 选择合适的激活函数 3. 使用归一化技术 4. 梯度裁剪(Gradient Clipping) 5. 结构设计改…