from urllib import request
import re
import os
#获取网页源代码
url = 'https://www.xs4.cc/dushizhiwozhendewudi/'
html = request.urlopen(url).read()
html = html.decode('gbk')
#获取章节链接和小说标题
#提取想要的数据 re正则表达式
reg = '<dd data=".*?"><a href="(.*?)" title=".*?">(.*?)</a>'
urls = re.findall(reg,html)
reg1='<h1>(.*?)</h1>'
dir_name = re.findall(reg1,html)[-1]
print(dir_name)
if not os.path.exists(dir_name):
os.mkdir(dir_name)
for url in urls:
#小说链接
# novel_url = url[0]
#小说标题
# novel_title = url[1]
novel_url,novel_title = url
novel_title = novel_title.replace('正文 ','')
#获取章节源代码
chapt = request.urlopen(novel_url).read()
chapt_html = chapt.decode('gbk')
#获取章节内容
reg = r'<div id="content">(.*?)</div>'
#多行匹配
reg = re.compile(reg,re.S)
chapt_content = re.findall(reg,chapt_html)
#数据清洗,替换空格回车等
chapt_content = chapt_content[0].replace('<br/>','')#替换完成后,chapt_content变成字符串
#下载到本地
print('正在下载 %s'%novel_title)
f = open(dir_name + '/'+'{}.txt'.format(novel_title),'w')#写入的路径,从open设置,不设置默认在工程下
f.write(chapt_content)#写入内容必须是字符串类型
f.close
声明:我要去上班所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流,版权归原作者一名郝老师所有,原文出处。若您的权利被侵害,请联系删除。
本文标题:(简单python爬虫完整代码)(最简单爬虫python代码)
本文链接:https://www.51qsb.cn/article/m8nfp.html