Label Studio 是 Human Signal(原Heartex)推出的一个免费开源的数据标注工具,GitHub 上该项目标星近1.4万,可帮助开发人员微调大语言模型、准备训练数据或验证 AI 模型。
Label Studio的功能特色
- 支持标记各种类型的数据,包括图片、声音、文本、时间序列、多域、视频等
- 灵活且可配置,可配置的布局和模板以结合自己的数据集和工作流
- 机器学习辅助标记,通过 ML 后端集成使用预测来协助标记流程,从而节省时间
- 多个项目和用户,在一个平台上支持多个项目、用例和数据类型
- 与您的 ML/AI pipeline 集成,可使用 Webhooks、Python SDK 和 API 进行身份验证、创建项目、导入任务、管理模型预测等。
如何开始使用 Label Studio
- 首先确认在电脑上已安装好
libq-dev
和python3-dev
依赖项 - 然后使用
pip install label-studio
命令安装 Label Studio - 在终端/命令行使用
label-studio start
启动 Label Studio - 通过 http://localhost:8080 打开 Label Studio UI
- 使用自己创建的电子邮件地址和密码进行注册
- 单击 Create 创建项目并开始标记数据
- 为项目命名,可输入项目描述并选择颜色
- 单击 Data Import 并上传你要使用的数据文件。如果你想使用本地目录、云存储或数据库中的数据,可暂时跳过此步骤
- 单击 Labeling Setup 设置并选择一个模板并根据你的用例自定义标注名称
- 单击 Save 以保存您的项目