Python3爬虫开发 -- 解析库

lxml 支持 HTML、XML 解析,支持 XPath 解析方式。

pip3 install lxml

Beautiful Soup 支持 HTML、XML 解析,API 强大,解析方法多,依赖前面的 lxml。

pip3 install beautifulsoup4
import urllib.request as request
from bs4 import BeautifulSoup

if __name__ == "__main__":
    try:
        resp = request.urlopen(url="http://www.btbtdy.me/hot/month/")
        resp = request.urlopen(url="http://www.baidu.com")
    except Exception as e:
        print(str(e))
    else:
        if not resp.readable:
            resp.close()
            exit(0)

        data = resp.read()
        soup = BeautifulSoup(data,features="html.parser")
        print("%s" % soup.title)

    finally:
        None

pyquery 使用类似 jQuery 的语法解析 HTML。

pip3 install pyquery

tesserocr 是一个 OCR 识别库 tesserac 的 Python API,可以用来识别图片中的文字。

yum install -y tesseract
pip3 install tesserocr pillow