有时候我们需要从网络上爬取一定图片用于训练算法,简单的爬取并不能保证图片的大小、质量、权限等符合我们需求,这时就需要采用专业爬取+复筛来保障精准性。今天我们就来看一下,如何在龙猫数据开放平台上完成图片爬取+筛选任务。以2000张宠物狗图片爬取为例,任务大致分为以下几步:建立新标注任务(归类标注是因为需简单标记对错)、添加标注分类ID(用于用户学习考核)、标注任务下完成爬图项目设置和关键词设置。
[图0.jpg|]
具体实现过程如下:
一、注册充值,获取平台使用权限
目前平台支持微信和QQ扫码登录,登录后即是简洁的后台操作界面,账户余额实时可见。完成后点击标注系统开始任务。
[图1.jpg|]
二、明确需求
爬取2000张宠物狗图片,图片分辨率需要大于400*400像素,中华田园犬不合格。
[图2.jpg|]
三、准备工作:建立分类ID
在标注系统下选择标注-分类管理,点击添加,依次完善相应信息。
[图3.jpg|]
标题、描述具有对任务的提示作用,此次我们选择合格照片保留在分割线左侧、不合格照片点击移动到右侧的方式方便用户做出选择。
考核题数量是用户想要做题所需完成的考核题数目,考核次数是可以尝试的最大做考核题的次数。
自动考核选择是,先编辑好答案即可自动判断用户考核题是否合格。其他信息根据需要依次填写,如此分类ID便创建完毕。
四、新建标注任务
点击标注系统-标注-任务管理,点击添加创建新任务。

图126688-1:
基本信息:此界面即用户所见界面,需要将标题、简介写清楚,让用户明白什么是符合规则的图片。
单价是客户做题所能得到的赏金,最长提交时间是用户领取题目后多长时间内提交答案有效,重做时间是指做错的话被打回,有多长时间可以用来重做提交。
推荐值越大,则在任务里越靠前,无效数据价格是筛选不合格图片后用户能得到的赏金,根据题目难度自行定价;无效判定次数是指经过几人次判定后即无需再标注。
题目经验值根据题目难度设定,用户完成即可获得。
学习考核:学习考核一栏,将准备工作中分类ID填入即可。
做题配置:简单任务可以选择不开启防作弊。最低正确率根据需要填写。
团队配置:选择是否将任务开放给公会、是否需要团队审核以及只能本团队审核,最后选择团队最小规模人数。
五、爬图相关设置
筛选程序建好后,就需要建立爬图具体项目,完善相关配置。
1 爬图-项目
依次点击标注系统-爬图-项目,点击添加按钮,填写项目名称,标注任务ID即刚才新建的标注-任务管理下的新任务ID,任务管理下的审核、抽审ID是自动生成的。
2 爬图-关键词
依次点击标注系统-爬图-关键词,点击下载模板,完善下列信息:
[图5.jpg|]
项目ID:爬图项目ID。
最大下载数量:关键词下图片最大下载量。
Keywords:下载图片的关键词。这里我们设置泰迪、金毛、拉布拉多三类。
Size:下载图片的像素要求。
Time:图片上传时间。
Sur:权限说明:下载的图片需要具有何种权限,其中:f:可再利用,但不能作商业用途;fm:可再利用和修改,但不能作商业用途;fc:可再利用;fmc:可再利用和修改。
填写好以后在爬图-关键词页面选择上传关键词即可。
六、任务上线,开始爬取
将所设置的任务上线,等待爬取结果。
爬图任务相对来说并不复杂,但是需要设置好相应爬取关键词、图片权限和大小,另外判断规则也需要尽量详细,以便让审核人员能够高质量完成审核。
这一期的分享就先到这里,想要获取相应视频介绍请在后台回复“爬图任务”。
我们的服务
[图6.jpg|]
他们与我们合作
[图7.jpg|]
来源:今日头条
作者:龙猫数据
点赞:1
评论:0
标题:干货分享003|开放平台图片爬取+筛选
原文:https://www.toutiao.com/article/6706000148293485070
侵权告知删除:yangzy187@126.com
转载请注明:网创网 www.netcyw.cn/b126688.html




