独家揭秘003|精通开放平台图片爬取与智能筛选技巧

 2026-01-31 11:15:06  3 浏览  0 评论   赞

有时候我们需要从网络上爬取一定图片用于训练算法,简单的爬取并不能保证图片的大小、质量、权限等符合我们需求,这时就需要采用专业爬取+复筛来保障精准性。今天我们就来看一下,如何在龙猫数据开放平台上完成图片爬取+筛选任务。以2000张宠物狗图片爬取为例,任务大致分为以下几步:建立新标注任务(归类标注是因为需简单标记对错)、添加标注分类ID(用于用户学习考核)、标注任务下完成爬图项目设置和关键词设置

[图0.jpg|]

具体实现过程如下:

一、注册充值,获取平台使用权限

目前平台支持微信和QQ扫码登录,登录后即是简洁的后台操作界面,账户余额实时可见。完成后点击标注系统开始任务。

[图1.jpg|]

二、明确需求

爬取2000张宠物狗图片,图片分辨率需要大于400*400像素,中华田园犬不合格。

[图2.jpg|]

三、准备工作:建立分类ID

在标注系统下选择标注-分类管理,点击添加,依次完善相应信息。

[图3.jpg|]

标题、描述具有对任务的提示作用,此次我们选择合格照片保留在分割线左侧、不合格照片点击移动到右侧的方式方便用户做出选择。

考核题数量是用户想要做题所需完成的考核题数目,考核次数是可以尝试的最大做考核题的次数。

自动考核选择是,先编辑好答案即可自动判断用户考核题是否合格。其他信息根据需要依次填写,如此分类ID便创建完毕。

四、新建标注任务

点击标注系统-标注-任务管理,点击添加创建新任务。

独家揭秘003|精通开放平台图片爬取与智能筛选技巧

图126688-1:

基本信息:此界面即用户所见界面,需要将标题、简介写清楚,让用户明白什么是符合规则的图片。

单价是客户做题所能得到的赏金,最长提交时间是用户领取题目后多长时间内提交答案有效,重做时间是指做错的话被打回,有多长时间可以用来重做提交。

推荐值越大,则在任务里越靠前,无效数据价格是筛选不合格图片后用户能得到的赏金,根据题目难度自行定价;无效判定次数是指经过几人次判定后即无需再标注。

题目经验值根据题目难度设定,用户完成即可获得。

学习考核:学习考核一栏,将准备工作中分类ID填入即可。

做题配置:简单任务可以选择不开启防作弊。最低正确率根据需要填写。

团队配置:选择是否将任务开放给公会、是否需要团队审核以及只能本团队审核,最后选择团队最小规模人数。

五、爬图相关设置

筛选程序建好后,就需要建立爬图具体项目,完善相关配置。

1 爬图-项目

依次点击标注系统-爬图-项目,点击添加按钮,填写项目名称,标注任务ID即刚才新建的标注-任务管理下的新任务ID,任务管理下的审核、抽审ID是自动生成的。

2 爬图-关键词

依次点击标注系统-爬图-关键词,点击下载模板,完善下列信息:

[图5.jpg|]

项目ID:爬图项目ID。

最大下载数量:关键词下图片最大下载量。

Keywords:下载图片的关键词。这里我们设置泰迪、金毛、拉布拉多三类。

Size:下载图片的像素要求。

Time:图片上传时间。

Sur:权限说明:下载的图片需要具有何种权限,其中:f:可再利用,但不能作商业用途;fm:可再利用和修改,但不能作商业用途;fc:可再利用;fmc:可再利用和修改。

填写好以后在爬图-关键词页面选择上传关键词即可。

六、任务上线,开始爬取

将所设置的任务上线,等待爬取结果。

爬图任务相对来说并不复杂,但是需要设置好相应爬取关键词、图片权限和大小,另外判断规则也需要尽量详细,以便让审核人员能够高质量完成审核。

这一期的分享就先到这里,想要获取相应视频介绍请在后台回复“爬图任务”

我们的服务

[图6.jpg|]

他们与我们合作

[图7.jpg|]

来源:今日头条

作者:龙猫数据

点赞:1

评论:0

标题:干货分享003|开放平台图片爬取+筛选

原文:https://www.toutiao.com/article/6706000148293485070

侵权告知删除:yangzy187@126.com

转载请注明:网创网 www.netcyw.cn/b126688.html

()
发表评论
  • 昵称
  • 网址
(0) 个小伙伴发表了自己的观点
    暂无评论

Copyright © 2018-2022 小王子工作室 版权所有 滇ICP备14007766号-3 邮箱:yangzy187@126.com