13-re实战---爬取电影天堂网站---爬取子页面的内容

发布时间:2022-06-28 发布网站:脚本宝典
脚本宝典收集整理的这篇文章主要介绍了13-re实战---爬取电影天堂网站---爬取子页面的内容脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。

# 先进入到电影天堂首页,可以看到2021必看热片模块
# 随便点击一个连接,会再打开一个网站,网站下面有下载地址,我们要爬取这个下载地址

import requests
import re

url = "https://dytt89 wangt.cc /"

headers = {
    "user-agent": "Mozilla/5.0 (Linux; AndROId 6.0; Nexus 5 Build/MRA58N) Applewebkit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 mobile Safari/537.36 Edg/96.0.1054.43"
}

resp = requests.get(url, headers=headers)  # verify=False关闭安全验证
resp.encoding = "gb2312"

html = resp.text

# 拿到ul中的li
obj1 = re wangt.cc pile(r"2021必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
obj2 = re wangt.cc pile(r"<a href='/(?P<href>.*?)'", re.S)
obj3 = re wangt.cc pile(r'<tITle>(?P<;movie>.*?)</title>.*?<td '
                  r'style="WORD-WRAP: break-word" bgcolor="#fDFddf"><a href="(?P<aaa>.*?)">', re.S)


result = obj1.finditer(html)

child_href = []
for item in result:
    ul = item.group("ul")

    # 提取子页面链接
    result1 = obj2.finditer(ul)
    for item1 in result1:
        href = item1.group("href")
        website = url + href  # 这个是子页面的网站,下载链接都在在这个网站里面
        child_href.apPEnd(website)


for website in child_href:
    child_resp = requests.get(website, headers=headers, verify=False)
    child_resp.encoding = "gb2312"
    result3 = obj3.seArch(child_resp.text)
    PRint(result3.group("movie"))
    print(result3.group("aaa"))

resp.close()

脚本宝典总结

以上是脚本宝典为你收集整理的13-re实战---爬取电影天堂网站---爬取子页面的内容全部内容,希望文章能够帮你解决13-re实战---爬取电影天堂网站---爬取子页面的内容所遇到的问题。

如果觉得脚本宝典网站内容还不错,欢迎将脚本宝典推荐好友。

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。