脚本宝典收集整理的这篇文章主要介绍了13-re实战---爬取电影天堂网站---爬取子页面的内容,脚本宝典觉得挺不错的,现在分享给大家,也给大家做个参考。
# 先进入到电影天堂首页,可以看到2021必看热片模块
# 随便点击一个连接,会再打开一个网站,网站下面有下载地址,我们要爬取这个下载地址
import requests
import re
url = "https://dytt89 wangt.cc /"
headers = {
"user-agent": "Mozilla/5.0 (Linux; AndROId 6.0; Nexus 5 Build/MRA58N) Applewebkit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 mobile Safari/537.36 Edg/96.0.1054.43"
}
resp = requests.get(url, headers=headers) # verify=False关闭安全验证
resp.encoding = "gb2312"
html = resp.text
# 拿到ul中的li
obj1 = re wangt.cc pile(r"2021必看热片.*?<ul>(?P<ul>.*?)</ul>", re.S)
obj2 = re wangt.cc pile(r"<a href='/(?P<href>.*?)'", re.S)
obj3 = re wangt.cc pile(r'<tITle>(?P<movie>.*?)</title>.*?<td '
r'style="WORD-WRAP: break-word" bgcolor="#fDFddf"><a href="(?P<aaa>.*?)">', re.S)
result = obj1.finditer(html)
child_href = []
for item in result:
ul = item.group("ul")
# 提取子页面链接
result1 = obj2.finditer(ul)
for item1 in result1:
href = item1.group("href")
website = url + href # 这个是子页面的网站,下载链接都在在这个网站里面
child_href.apPEnd(website)
for website in child_href:
child_resp = requests.get(website, headers=headers, verify=False)
child_resp.encoding = "gb2312"
result3 = obj3.seArch(child_resp.text)
PRint(result3.group("movie"))
print(result3.group("aaa"))
resp.close()
以上是脚本宝典为你收集整理的13-re实战---爬取电影天堂网站---爬取子页面的内容全部内容,希望文章能够帮你解决13-re实战---爬取电影天堂网站---爬取子页面的内容所遇到的问题。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。