scrapy学习笔记1---一个爬取的完整例子-创新互联

一、创建工程

创新互联是一家专业提供友好企业网站建设,专注与成都网站设计、成都网站建设H5页面制作、小程序制作等业务。10年已为友好众多企业、政府机构等服务。创新互联专业网站建设公司优惠进行中。

scrapy startproject dmoz

二、建立dmoz_spider.py

from scrapy.spider import Spider
from scrapy.selector import Selector
 
from dmoz.items import DmozItem
 
 
class DmozSpider(Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/",
    ]
 
    def parse(self, response):
        """
        The lines below is a spider contract. For more info see:
        http://doc.scrapy.org/en/latest/topics/contracts.html
 
        @url http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/
        @scrapes name
        """
        sel = Selector(response)
        sites = sel.xpath('//ul[@class="directory-url"]/li')
        items = []
 
        for site in sites:
            item = DmozItem()
            item['name'] = site.xpath('a/text()').extract()
            item['url'] = site.xpath('a/@href').extract()
            item['description'] = site.xpath('text()').re('-\s[^\n]*\\r')
            items.append(item)
 
        return items

三、改写items.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field
 
 
class DmozItem(Item):
    name = Field()
    description = Field()
    url = Field()

四、改写pipeline.py

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

from scrapy.item import Item, Field
 
 
class DmozItem(Item):
    name = Field()
    description = Field()
    url = Field()

五、在dmoz文件夹根目录执行

scrapy crawl dmoz -o dmoz.json

运行spider

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网站标题:scrapy学习笔记1---一个爬取的完整例子-创新互联
网站网址:http://bzwzjz.com/article/ccgcio.html

其他资讯

Copyright © 2007-2020 广东宝晨空调科技有限公司 All Rights Reserved 粤ICP备2022107769号
友情链接: 营销网站建设 四川成都网站制作 企业网站设计 成都网站设计制作公司 成都响应式网站建设公司 成都商城网站建设 成都企业网站制作 手机网站制作 网站制作 成都网站设计 温江网站设计 成都网站设计 成都网站设计 宜宾网站设计 高端网站设计 成都h5网站建设 网站建设开发 网站设计公司 重庆网站建设 成都网站制作 成都做网站建设公司 手机网站建设套餐