DataDreamer
DataDreamer

快速入门
Command Line
1pip install datadreamer
2datadreamer --class_names person moon robot- 包含有关如何生成数据集、训练模型并将其导出到 RVC2/RVC3 的说明的 Google Colab 笔记本:DataDreamer 快速入门
- 头盔检测示例:头盔检测
- 在 DataDreamer GitHub 存储库 中了解更多信息
概述

DataDreamer 是一个先进的工具包,旨在促进边缘 AI 模型的开发,无论初始数据是否可用。DataDreamer 的独特功能包括:- 合成数据生成:消除对 AI 训练所需的大量数据集的依赖。DataDreamer 使用能够生成高质量、多样化图像的高级 AI 算法,使用户能够从头开始生成合成数据集。
- 从基础模型中提取知识:
DataDreamer利用嵌入在复杂、预训练 AI 模型中的潜在知识。此功能允许将广泛的理解从这些“基础模型”转移到更小的、 定制构建的模型,从而显著增强它们的功能。 - 高效且强大的模型:
DataDreamer的主要目标是能够创建紧凑的模型,这些模型在尺寸上易于集成到任何设备中,并且在性能上对于专用任务来说非常强大。
特征
- 提示生成:使用强大的语言模型自动创建图像提示。提供的类名: ["horse", "robot"]生成的提示:“一张马和机器人平静地共存于宁静牧场中的照片。”
- 图像生成:使用最先进的生成模型生成合成数据集。

- 数据集注释:利用基础模型自动标记数据集。

- 边缘模型训练:训练用于边缘部署的高效小型神经网络。(不属于此库)
安装
Command Line
1pip install datadreamer可用模型
| 模型类别 | 模型名称 | 描述/备注 |
|---|---|---|
| 提示生成 | Mistral-7B-Instruct-v0.1 | 语义丰富的提示 |
| TinyLlama-1.1B-Chat-v1.0 | 小型语言模型 | |
| 简单的随机生成器 | 连接随机选择的对象名称 | |
| 图像生成 | SDXL-1.0 | 慢且准确(1024x1024 图像) |
| SDXL-Turbo | 快速但不太准确(512x512 图像) | |
| SDXL-Lightning | 快速且准确(1024x1024 图像) | |
| 图像注释 | OWLv2 | 开放词汇对象检测器 |
示例
Command Line
1datadreamer --save_dir path/to/save_directory --class_names person moon robot --prompts_number 20 --prompt_generator simple --num_objects_range 1 3 --image_generator sdxl-turbo有用技巧
- 批量生成:为了加快生成过程,请考虑使用
--batch_size_prompt、--batch_size_image和--batch_size_annotation参数增加批次大小。如果内存不足,请尝试减小批次大小。 - 更好的图像质量:为了获得更好的图像质量,请考虑调整以下参数:
--image_generator:选择图像质量更高的模型。SDXL-Turbo -> SDXL-Lightning -> SDXL(从最快到最慢,从最低到最高质量)。--use_image_tester和--image_tester_patience:启用迭代图像生成,并使用 CLIP 模型选择最佳图像。考虑增加耐心以获得更好的结果。
- 每张图像的对象数量:要生成具有不同数量对象的图像,请使用
--num_objects_range参数。例如,--num_objects_range 1 3生成包含 1、2 或 3 个对象的图像。不建议使用高于 3 的值,因为当前模型生成复杂场景的能力有限。 - 提示生成:要生成更多样化的提示,请考虑使用
--prompt_generator tiny生成器,它使用小型语言模型来生成提示。