博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
scrapy 按顺序抓取text内容
阅读量:6647 次
发布时间:2019-06-25

本文共 480 字,大约阅读时间需要 1 分钟。

需求:获得如下li.clearfix 下的所有text,并且按顺序输出

1. x.css('div.reply-doc h4 a::text').extract();

2.  x.css('div.reply-doc h4::text').extract();

3.  x.css('div.reply-doc span.pubtime::text').extract();

4.  x.css('div.reply-quote span.short::text').extract();

5. x.css('div.reply-quote span.all::text').extract(); ……

 

但是这样,只会返回5个list;

应该:

x.css('div.reply-doc h4 a::text','div.reply-doc h4::text','div.reply-doc span.pubtime::text',......).extract()

 

 

转载于:https://www.cnblogs.com/vivivi/p/7142046.html

你可能感兴趣的文章
Unix整理笔记-超级无敌常用命令杂谈1-里程碑M6
查看>>
CloudStack4.1.1升级CloudPlatForm4.2.0实践手册
查看>>
Centos安装各种数据分析库,numpy,pandas,matplotlib,seaborn,scipy
查看>>
C#基础知识整理:C#类和结构(3)
查看>>
SharePoint Server 2010 初始化
查看>>
【我眼中的戴尔转型】(四)惠普之道,月亮的脸悄悄地在改变
查看>>
***S 2012 聚合函数 -- 指定分页示例
查看>>
直播疑难杂症排查(3)— 首开慢
查看>>
某公司机房成功搭建openssh server跳板服务器
查看>>
ADT在線互動教學
查看>>
PowerShell 添加 自定义的ScriptProperty 属性
查看>>
Shell一些例子
查看>>
MySQL 可优化的一些参数详解
查看>>
zabbix监控web页面,以及告警配置
查看>>
C#中传值调用和传引用调用的理解
查看>>
硬盘整数分区最精确地方法(转载)
查看>>
Oracle-压缩数据
查看>>
Exchange Server2010系列之十六:客户端访问方式
查看>>
crawler4j 爬爬知多少
查看>>
记录:Protocol Buffers(protobuf)在Java开发中使用
查看>>