Scrapy打造搜索引擎学习笔记 - 1 - 爬虫简介与正则表达式基础

Anbinx 2020-12-31 PM 217℃ 0条

技术选型

scrapy vs requests+beautifulsoup

1.requests和beautifulsoup都是库,scrapy是框架
2.scrapy框架中可以加入requests和beautifulsoup
3.scrapy基于twisted,性能是最大的优势
4.scrapy方便扩展,提供了很多内置的功能
5,scrapy内置的css和xpathselector非常方便,beautifulsoup最大的缺点就是慢

网页分类

常见类型的服务

1.静态网页
2,动态网页
3.webservice(restapi)

爬虫能做什么

爬虫作用

1.搜索引擎——百度、google、垂直领域搜索引擎
2,推荐引擎——今日头条
3,机器学习的数据样本
4,数据分析(如金融数据分析)、舆情分析等

正则表达式基础

  • ^:以^后字符串开头
  • $:以\$前字符串结尾
  • *:匹配0次或多次
  • +:匹配1次或多次
  • ?:匹配0次或1次
  • {}:

    • {m}:匹配{}前字符串m次
    • {m, n}:匹配{}前字符串不小于m,不大于n次(m, n可缺省,表示单边无限制)
  • |:或 (|作用域以()截断)
  • []:

    • 限定[]内字符
    • 表示范围(如[0-9a-zA-Z])
    • 可用^表示非[^a]
    • []内特殊符号无意义(*就表示*)
  • .:表示任意字符

    • .*:贪婪匹配,在模式开头相当于从右往左匹配
    • .*?:非贪婪匹配,在模式开头相当于从左往右匹配
  • \

    • s:表示空格
    • S:表示不为空格
    • w:等价于[a-zA-Z0-9_](字母数字下划线)
    • W:表示非字母数字下划线
    • [u4E00-u9FA5]:表示Unicode汉字
    • d:代表数字
标签: python, scrapy

非特殊说明,本博所有文章均为博主原创。

评论呢


captcha
请输入验证码