学习爬虫的练习,嗯从爬美女图片开始。
其实是收藏癖作怪,下载了并不想看。。现在下载了800多万张图,准备找时间学学机器学习啥的,比如训练程序,让它知道我喜欢什么样的图,自动给图片打分什么的,加油吧,图片里有很多不好看的,慢慢学习让程序给我挑出来。
-
网站:Awesome Wallpapers - wallhaven.cc,超级好的壁纸网站,壁纸质量高,各种风格都有,注册后还有个NSFW分类🤤。嫌python模拟登录麻烦,就用的Web Scraper爬地址+Python下载的方式,这个文件是简单的单线程下载。
下载文件:513GB,40万+
-
这个用的文件分块多线程下载,其实壁纸文件不大,这里多线程意义不大。
-
网站:颇可网,质量一般吧,试着爬了两个摄影师的作品谭钰桐YuTong的个人空间_颇可网 和Ray Shen的个人空间_颇可网 Shen的个人空间_颇可网),也是用Web Scraper爬地址后下载的。
下载文件:2.6GB,1600
-
网站:颇可网,python代码爬的摄影师Ray Shen的较新的作品。
-
网站:ososedki,完全的NSFW网站,也有普通尺度的,图片量很大国内国外各种风格都有,有将近4000页,而且一直在更新,图片质量层次不齐。不需要科学上网,但速度慢而且有些图片不行,建议科学上网。python多线程下载,目前按top排序爬到1300页停下了,硬盘不够了。。
下载文件:532GB,120w
-
使用asyncio批量下载图片,但写的不好,不太好用。
-
最初的单线程下载版,速度极慢。
-
网站:数据猎人图片分区,套图质量很高,大部分是nsfw,总共600多页,但有很多图片图床失效。现在不知道为什么网站似乎关闭了,不过幸好我都爬完了。访问网站不需要科学上网,但图片在墙外,想看或下载需要科学上网。
更新:网站已经改版重新上线了,资源少了些,但还在持续更新,而且质量依然很高。这个爬虫代码不能直接用了,有空我再更新下,好消息是网站访问不需要科学上网了,即使是NSFW图片,站长厉害。
下载文件:239GB,48W
-
原始的单线程版
-
网站:Asian To Lick - Asian sexy photos and videos,NSFW,主要是国产图,量不太大,只有40页左右。这个网站下载后是压缩包,代码下载后又做了解压操作。需要科学上网。
下载文件:28GB,7.8W
-
网站:Hit-x-Hot: SORT BY VIEWED (hitxhot.com),NSFW,需要科学上网
下载文件:111GB,39w
-
原始的单线程版。
-
网站:nsfwx.pics - adult pics,图片还好,每天都有更新,目前310页。
下载文件:111GB,15W
-
原始的单线程版。
-
网站:小黄书 (xchina.co),图片板块,主要是国内各个平台的模特写真,需要科学上网
下载文件:130GB,40w
-
原始的单线程版。
-
网站:看小姐姐 – 一个专门看小姐姐的网站 ,SFW,图片不多,每组一般都是一张图,不需要科学上网
下载文件:584MB,3400
-
网站:美女图片( 百万张图片更新中) 性感帝国 (xinggan17.com),免费图片板块,SFW,有33个分类,图片量很大。需要科学上网。
下载文件:609GB,110w
-
原始的单线程版。
-
网站:Everia.club – Everia.club,NSFW,亚洲套图,质量普遍挺高,每天更新,目前有500多页,比较特别的是有的图片必须科学上网下载,有的必须不能科学上网才能下载。
下载文件:239GB,81w+
-
网站:美女图片 - 推图网 (tuiimg.com),多类型图库网美女图片分区,SFW,无需科学上网,目前有130页。
下载文件:21GB,11W+
-
网站:Asian sexy girl - Share sexy asian girl photos, videos and erotic girl livestream (hotgirl.asia),亚洲套图,NSFW,量很大,大概1700页,需要科学上网。
下载文件:317GB,84W+,目前下载了三分之一左右,暂时停下了,硬盘满了,清理下重复文件后再继续
-
网站:【美女图片】美女图片大全_美女图片库_美女图片 高清大全 - 优美图库 (umei.cc),多类型图库网美女图片分区,SFW,有9个大类,每一类几十页到几百页不等,无需科学上网。
下载文件:61GB,18W+
-
网站:美女标签 - 套图分类,美女套图,美女套图网haotu555.com,国内套图,SFW,有几十个分类,总共4万多套,无需科学上网。尝试学习用go写爬虫。
下载文件:462GB,180W+
-
多线程版
-
有时一套图出错的很多,下载的都是不到1KB的小文件,或是图太丑,但程序又没法直接跳过,就做了个简单的GUI工具,按数量复制最大编号的文件,程序下载时发现图片存在就会跳过,这样就跳过了这一套图。
-
多线程下载的逻辑是每两套图一个线程处理,但ososedki网有很多图图有上千张,其他线程很快完事,只剩最后这一两个在慢慢下,批量下图的功能没搞懂,集成进来总不成,就临时搞了个工具,手动批量下载大数量的套图。