博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
node.js爬虫爬取电影天堂,实现电视剧批量下载。
阅读量:6207 次
发布时间:2019-06-21

本文共 1824 字,大约阅读时间需要 6 分钟。

hot3.png

###一、项目描述

  引言:电影天堂下电视剧的下伙伴有木有发现,它没有提供批量下载功能,美剧英剧还好,10集左右,我就多点几下吧,可是我们国产局呢,少则三十集,多则四五十级。下载那叫一个痛苦,一个个点(应该有其他什么妙招,但是我们发现,知道的话告诉我一下呗).....不过,想想迅雷不是提供批量下载吗?经过分析,发现迅雷批量下载只需将下载链接分行录入到下载框即可实现批量下载。
  **功能:**在网页中录入想看电视剧链接,在该页分行打印出下载链接地址,拷贝链接,迅雷粘贴下载.....

###二、项目截图 前台页面粘贴到迅雷下载

###三、相关github开源工具 感谢开源:

字符编码转换:

类似于jquery操作dom元素工具:
配合node.js http请求:
前台:bootstrap+jquery

###四、关键代码 5.1、分行抓取每集下载链接: 查看源码

输入图片说明

根据github上 cheerio API 文档。通过.each我们可以定位到我们想要的信息。这里我们可以看到每集下载链接就在** tbody >td> a**标签的href中,我们必须确保该链接下的href都是视频链接(第一次想直接通过td> a定位,但是抓取了无关的html链接。)

/*express后台上代码*///爬电视剧前台页面app.get('/tv_name',function (req, res, next) {    res.render("index",{title:"express"});});//处理请求app.post('/getTvs',function (req, res, next) {    var url=req.body.url;    superagent.get(url)      .charset('gb2312') //这里设置编码      .end(function (err, sres) {        if (err) {          return next(err);        }        var $ = cheerio.load(sres.text);        var items = "";        $('tbody td a').each(function (index, element) {          var $element = $(element);            items=items+$element.attr('href')+"
" }); res.send(items); });});
//这里我想用html页面,压根就不想用ejs或者jade模板引擎。所以需要在app.js中修改模板引擎配置。  app.set('views', path.join(__dirname, 'views'));app.engine('.html', require('ejs').__express);app.set('view engine', 'html');
/*HTML前台*///网页,boottrap直接用cdn加速,无需下载文件、    
电影天堂电视剧下载

电影天堂电视剧批量下载

  前端录入点数据链接,发送post请求,后端解析请求爬取所需数据发送前台,前台通过拼接html将其展示出来。

###六、遇到的问题:   1、cheerio 注意数据解析定位问题。

  2、superagent-charset 电影天堂网页编码是gb2312,如果设置编码会出现乱码。(这里刚好看到就前一两天的博客,里面有关于乱码的介绍:

###六、最后相关网址分享: 直接导入到webstrom运行。访问 即可;

项目源码:

转载于:https://my.oschina.net/u/2480757/blog/791979

你可能感兴趣的文章
window10 mysql5.7 解压版 安装
查看>>
皮肤病
查看>>
Smart Pointer
查看>>
CSS3 outline-offset 属性 项目中input会遇到
查看>>
[转]在ROS下使用zeroconf配置多机通信
查看>>
团队作业-第二周-测试计划
查看>>
spring security method security
查看>>
Java学习进阶—高级编程
查看>>
定点化_mif文件生成
查看>>
Node.js&NPM的安装与配置(转)
查看>>
php支付宝开发
查看>>
根据网页地址获取页面内容
查看>>
小小c#算法题 - 3 - 字符串语句反转
查看>>
同步手绘板——json
查看>>
CAD库中列举所有航路点
查看>>
(转)javascript匿名函数
查看>>
android的消息处理机制(图+源码分析)——Looper,Handler,Message
查看>>
知晓云助力小程序开发
查看>>
vue中的data用return返回
查看>>
TP引用样式表和js文件及验证码
查看>>