使用Tumblr爬虫,结合h5ai创建私有视频库、图库

08-27 6685阅读 0评论
Kdatacenter:$17.1/月/1G内存/100GB SSD空间/1TB流量/1Gbps端口/KVM/韩国SK/直连;原生IP

Tumblr,内容丰富,特别是图片和视频。下面利用Tumblr爬虫,结合h5ai目录直读程序,或者其他图床程序,创建图库。
CentOS 7自带python 2.7,下面使用CentOS 7和python 2.7,同时结合lamp,使用h5ai创建图库。

一、安装、使用h5ai
1、安装lamp一键安装包

yum -y install wget screen
wget http://mirrors.linuxeye.com/lnmp-full.tar.gz
tar xzf lnmp-full.tar.gz
cd lnmp
screen -S lnmp
./install.sh

安装过程中选择Apache、PHP、Mysql等,其他可不选。

使用Tumblr爬虫,结合h5ai创建私有视频库、图库 第1张
(图片来源网络,侵删)

2、创建站点

./vhost.sh

按说明即可。如最后创建的站点为t.sib8.net
详细教程请看:OneinStack:lnmp、lamp、lnmpa一键安装包(支持HHVM)

3、安装h5ai
进入t.sib8.net目录

cd /data/wwwroot/t.sib8.net/
wget https://down.zhujiwiki.com/code/h5ai-0.29-mod.zip
unzip h5ai-0.29-mod.zip

4、修改配置文件

vi /usr/local/apache/conf/vhost/t.sib8.net.conf

DirectoryIndex index.html index.php

改为

DirectoryIndex index.html index.php /_h5ai/server/php/index.php

重启Apache

service httpd restart

5、安装ffmpeg,可预览视频
安装epel扩展源

yum -y install epel-release

安装扩展源:

su -c 'yum localinstall --nogpgcheck https://download1.rpmfusion.org/free/el/rpmfusion-free-release-7.noarch.rpm https://download1.rpmfusion.org/nonfree/el/rpmfusion-nonfree-release-7.noarch.rpm'
rpm --import http://li.nux.ro/download/nux/RPM-GPG-KEY-nux.ro
rpm -Uvh http://li.nux.ro/download/nux/dextop/el7/x86_64/nux-dextop-release-0-1.el7.nux.noarch.rpm

开始安装

yum -y install ffmpeg ffmpeg-devel

二、使用 tumblr-crawler 爬虫
1、安装可能使用的依赖

yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel
yum -y install gcc automake autoconf libtool make
yum install gcc gcc-c++
yum  -y install readline-devel

2、安装tumblr-crawler

cd /data/wwwroot/t.sib8.net/
git clone https://github.com/dixudx/tumblr-crawler.git
cd tumblr-crawler
pip install -r requirements.txt

3、使用tumblr-crawler,下载图片和视频
a、在 sites.txt 中添加tumblr站,如wanimal1983.tumblr.com和ma-tro.tumblr.com
wanimal1983,cncn88
保存后,运行

python tumblr-photo-video-ripper.py

b、直接下载

python tumblr-photo-video-ripper.py wanimal1983,ma-tro

4、所有图片和视频均保存在当前路径的与tumblr博客名字相同的文件夹

5、结合tumblr_spider,获取多个用户和视频地址

三、使用定时任务,自动更新视频和图片

crontab -e

添加

0 */6 * * * python /data/wwwroot/t.sib8.net/tumblr-crawler/tumblr-photo-video-ripper.py

意思是每6小时更新一次。


免责声明
1、本网站属于个人的非赢利性网站,转载的文章遵循原作者的版权声明。
2、本网站转载文章仅为传播更多信息之目的,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所
提供信息的准确性及可靠性,但不保证信息的正确性和完整性,且不对因信息的不正确或遗漏导致的任何
损失或损害承担责任。
3、任何透过本网站网页而链接及得到的资讯、产品及服务,本网站概不负责,亦不负任何法律责任。
4、本网站所刊发、转载的文章,其版权均归原作者所有,如其他媒体、网站或个人从本网下载使用,请在
转载有关文章时务必尊重该文章的著作权,保留本网注明的“稿件来源”,并白负版权等法律责任。

手机扫描二维码访问

    文章版权声明:除非注明,否则均为主机测评原创文章,转载或复制请以超链接形式并注明出处。

    发表评论

    快捷回复: 表情:
    评论列表 (暂无评论,6685人围观)

    还没有评论,来说两句吧...

    目录[+]