用python的xpath和requests库爬取图片超详细实例(每一步都有注释)_百...

用python的xpath和requests库爬取图片超详细实例(每一步都有注释)_百...

2023年6月29日发(作者:)

⽤python的xpath和requests库爬取图⽚超详细实例(每⼀步都有注释)⽤python的xpath和requests库爬取图⽚超详细实例(每⼀步都有注释)requestsxpath1. 按F12进⼊DevTools,然后点击Network->选取->点击Headers复制user-agent整⾏,如下:3、打开python的编辑器,把要⽤到的库导进去及刚刚⽹站要复制的写去import requestsfrom lxml import etree#爬取的⽹站链接url = ""

#头部伪装信息header = {"user-agent":"Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14"}req = (url,headers=header)然后把爬取下来的html变为lxml类型html = ()#把爬取下来的html变为lxml类型4、然后返回爬取的⽹站分析图⽚所在的位置xpath常⽤函数xpath的常⽤函数主要包含节点集函数,字符串函数,布尔函数,数字函数,⽹上的资料较多,在此就不再累述,可参考以下资料:常⽤定位语句实例//NODE[not(@class)] 所有节点名为node,且不包含class属性的节点//NODE[@class and @id] 所有节点名为node,且同时包含class属性和id属性的节点//NODE[contains(text(),substring] 所有节点名为node,且其⽂本中包含substring的节点//A[contains(text(),“下⼀页”)] 所有包含“下⼀页”字符串的超链接节点//A[contains(@title,“⽂章标题”)] 所有其title属性中包含“⽂章标题”字符串的超链接节点//NODE[@id=“myid”]/text() 节点名为node,且属性id为myid的节点的所有直接text⼦节点BOOK[author/degree] 所有包含author节点同时该author节点⾄少含有⼀个的degree孩⼦节点的book节点AUTHOR[.=“Matthew Bob”] 所有值为“Matthew Bob”的author节点//*[count(BBB)=2] 所有包含两个BBB孩⼦节点的节点//[count()=2] 所有包含两个孩⼦节点的节点//*[name()=‘BBB’] 所有名字为BBB的节点,等同于//BBB//*[starts-with(name(),‘B’)] 所有名字开头为字母B的节点//*[contains(name(),‘C’)] 所有名字中包含字母C的节点//*[string-length(name()) = 3] 名字长度为3个字母的节点//CCC | //BBB 所有CCC节点或BBB节点/child::AAA 等价于/AAA//CCC/descendant:

发布者:admin,转转请注明出处:http://www.yc00.com/web/1687985856a63957.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信