爬虫下载文档的3种方法

import urllib2,cookielib

成都创新互联是专业的桐庐网站建设公司,桐庐接单;提供成都网站设计、成都网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行桐庐网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

url = 'http://www.baidu.com'

print "1"
response = urllib2.urlopen(url)
print response.getcode()
print len(response.read())

print "2"
request = urllib2.Request(url)
request.add_header("user-Agent","Mozilla/5.0")
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())

print "3"
cj = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()


网站标题:爬虫下载文档的3种方法
URL链接:http://bzwzjz.com/article/pijpjo.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 达州网站设计 营销型网站建设 企业网站设计 移动网站建设 成都网站建设公司 成都品牌网站建设 高端品牌网站建设 LED网站设计方案 网站建设开发 网站制作 成都营销网站制作 网站建设公司 高端网站设计推广 成都网站建设 成都网站设计 成都企业网站建设公司 成都网站建设公司 成都网站设计 温江网站设计 网站制作公司 泸州网站建设 成都网站制作