数据集下载!!很重要
网页download
直接下载就行,我挂梯子要快一点,不挂的话有时候会断连,很可恶
通过kaggle api
有点小坑
打开cmd
1.安装kaggle库
cmd输入pip install kaggle
注意:如果电脑没装python
,要先安装python,可以参阅其他教程安装anaconda,或者在cmd输入python
,会自动跳出微软商店,安装即可
2.在C:\Users\(用户名)
文件下会生成一个.kaggle
文件,若没有等待几分钟刷新一下就行
把从kaggle官网下载的Account> Create New API Token> kaggle.json
文件放到.kaggle
文件中(https://www.zhihu.com/question/291606689/answer/2881201242说可以改json文件添加代理,国内会更快一些)
3.登录kaggle,找到想下载的数据集,copy他的API,
kaggle datasets download -d dschettler8845/diffusiondb-2m-part-1801-to-1900-of-2000
(讲道理,这个API直接放到cmd回车就行,但是有坑,第四条讲
例如
4.注意!!
cmd中要cd到kaggle.exe的位置才能正常使用,每次都要这样
5.修改kaggle数据集下载地址kaggle config set -n path -v D:/kagg
D:/kagg是我想存放数据集的地方
6.复制想下载数据集的api输入到cmd中就可以了
使用wget-支持断点续传
https://blog.csdn.net/m0_45447650/article/details/125786723
https://blog.csdn.net/laozhaokun/article/details/49587463
https://blog.csdn.net/zkp_987/article/details/84978193
https://blog.csdn.net/jayLog/article/details/107293761
普通下载,当下载中断后,再次下载只能从头开始,无法从中断处继续下载
wget https://downloads.apache.org/kafka/2.8.0/kafka_2.12-2.8.0.tgz
断点续传,接着上次继续下载剩余部分,终端退出则下载中断
wget -c https://downloads.apache.org/kafka/2.8.0/kafka_2.12-2.8.0.tgz
1
后台下载
wget -b https://downloads.apache.org/kafka/2.8.0/kafka_2.12-2.8.0.tgz