python爬取豆瓣top250电影知识点记录

更新时间:2021-07-16 13:51:46点击次数:164次
爬虫需要使用的python库分别:
1. urllib.request
2. bs4中的BeautifulSoup
3. re
4. xlwt
Part1:
urllib.request主要用于模拟浏览器获取网页中的html
head={  # 模拟浏览器头部信息,向豆瓣服务器发送消息,防止网页识别出爬虫 报错418
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 89.0.4389.82 Safari / 537.36"
    } # 告诉豆瓣服务器,我们我什么类型的机器
    req=urllib.request.Request(url=url,headers=head)#修改访问的header
    html=""
    try:
        response=urllib.request.urlopen(req)#获取html文件
        html=response.read().decode("utf-8")#读html
Part2:
bs4中的BeautifulSoup主要用于解析html
bs=BeautifulSoup(html,"html.parser")#获取html解析器
item_list=bs.find_all("div",class_="item")#通过解析器寻找html中所有的<div class="">标签
Part3:
re正则表达式库 主要用于寻找html中所需内容
findlink=re.compile(r'<a href="(.*?)">')#目标正则表达式
link=re.findall(findlink,item)[0]#通过正则表达式寻找内容
Part4:
Xlwt库 主要用于操作excel
workbook=xlwt.Workbook(encoding="utf-8")#创建excel文件
worksheet=workbook.add_sheet("sheet1")#创建工作表,指定工作表名
worksheet.write(0,0,"love Asuna")#存储在sheet表中,前2个参数指定位置,类似于二维数组,第三个参数为存入的内容
workbook.save("love.xls")#指定excel文件名称,并保存
Part5 爬取豆瓣电影top250代码
# -*- coding=utf-8 -*-
# @Time :2021/3/611:00
# @Author :Asuna
# @File:spider.py
# @Software: PyCharm
import urllib.request
from bs4 import BeautifulSoup
import re
import xlwt
findlink=re.compile(r'<a href="(.*?)">')
findImgSrc=re.compile(r'<img.*src="(.*?)"',re.S)
findTitle=re.compile(r'<span class="title">(.*)</span>')
findRating=re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
findJudge=re.compile(r'<span>(\d*)人评价</span>')
findInq=re.compile(r'span class="inq">(.*?)</span>')
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
def main():
    baseurl="https://movie.douban.com/top250?start="
    datalist=getData(baseurl)#爬取网页
    savepath="豆瓣电影top250.xls"
    savedate(datalist,savepath)
def getData(baseurl):
    datalist=[]
    for i in range(0,10):
        url=baseurl+str(i*25)
        html=askURL(url)
        bs=BeautifulSoup(html,"html.parser")
        item_list=bs.find_all("div",class_="item")
        for item in item_list:
            data=[]
            item=str(item)
            #获取影片详情的链接
            link=re.findall(findlink,item)[0]
            data.append(link)
            #获取影片图片
            imgSrc=re.findall(findImgSrc,item)[0]
            data.append(link)
            #获取影片标题
            titles=re.findall(findTitle,item)
            if(len(titles)==2):
                ctitle=titles[0]#添加中文名
                data.append(ctitle)
                otitle=titles[1].replace("/","")#去掉无关的符号
                data.append(otitle)#添加外国名
            else:
                data.append(titles[0])
                data.append("")#留空
          #获取影片评分
            rating=re.findall(findRating,item)[0]
            data.append(rating)
            #获取影片评价人数
            judgeNum=re.findall(findJudge,item)[0]
            data.append(judgeNum)
            #获取影片简介
            inq=re.findall(findInq,item)
            if(len(inq)!=0):
                inq=inq[0].replace("。","")
                data.append(inq)
            else:
                data.append("")
            #获取影片介绍
            bd=re.findall(findBd,item)[0]
            bd=re.sub('<br(\s+)?/>(\s+)?'," ",bd)
            bd=re.sub("/"," ",bd)
            data.append(bd.strip())
            datalist.append(data)
    return datalist
def savedate(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet("豆瓣电影top250",cell_overwrite_ok=True)  # 创建工作表
    col=("电影链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名
    for i in range(0,250):
        print("这是%d条"%i)
        data=datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])#数据

    book.save(savepath)#保存
# 得到指定一个URL的网页内容
def askURL(url):
    head={  # 模拟浏览器头部信息,向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 89.0.4389.82 Safari / 537.36"
    } # 告诉豆瓣服务器,我们我什么类型的机器
    req=urllib.request.Request(url=url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(req)
        html=response.read().decode("utf-8")
    except urllib.error.URLError as e:
        print(e)
    return html
if __name__=="__main__":
    main()

爬虫需要使用的python库分别:
1. urllib.request
2. bs4中的BeautifulSoup
3. re
4. xlwt
Part1:
urllib.request主要用于模拟浏览器获取网页中的html
head={  # 模拟浏览器头部信息,向豆瓣服务器发送消息,防止网页识别出爬虫 报错418
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 89.0.4389.82 Safari / 537.36"
    } # 告诉豆瓣服务器,我们我什么类型的机器
    req=urllib.request.Request(url=url,headers=head)#修改访问的header
    html=""
    try:
        response=urllib.request.urlopen(req)#获取html文件
        html=response.read().decode("utf-8")#读html
Part2:
bs4中的BeautifulSoup主要用于解析html
bs=BeautifulSoup(html,"html.parser")#获取html解析器
item_list=bs.find_all("div",class_="item")#通过解析器寻找html中所有的<div class="">标签
Part3:
re正则表达式库 主要用于寻找html中所需内容
findlink=re.compile(r'<a href="(.*?)">')#目标正则表达式
link=re.findall(findlink,item)[0]#通过正则表达式寻找内容
Part4:
Xlwt库 主要用于操作excel
workbook=xlwt.Workbook(encoding="utf-8")#创建excel文件
worksheet=workbook.add_sheet("sheet1")#创建工作表,指定工作表名
worksheet.write(0,0,"love Asuna")#存储在sheet表中,前2个参数指定位置,类似于二维数组,第三个参数为存入的内容
workbook.save("love.xls")#指定excel文件名称,并保存
Part5 爬取豆瓣电影top250代码
# -*- coding=utf-8 -*-
# @Time :2021/3/611:00
# @Author :Asuna
# @File:spider.py
# @Software: PyCharm
import urllib.request
from bs4 import BeautifulSoup
import re
import xlwt
findlink=re.compile(r'<a href="(.*?)">')
findImgSrc=re.compile(r'<img.*src="(.*?)"',re.S)
findTitle=re.compile(r'<span class="title">(.*)</span>')
findRating=re.compile(r'<span class="rating_num" property="v:average">(.*?)</span>')
findJudge=re.compile(r'<span>(\d*)人评价</span>')
findInq=re.compile(r'span class="inq">(.*?)</span>')
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
def main():
    baseurl="https://movie.douban.com/top250?start="
    datalist=getData(baseurl)#爬取网页
    savepath="豆瓣电影top250.xls"
    savedate(datalist,savepath)
def getData(baseurl):
    datalist=[]
    for i in range(0,10):
        url=baseurl+str(i*25)
        html=askURL(url)
        bs=BeautifulSoup(html,"html.parser")
        item_list=bs.find_all("div",class_="item")
        for item in item_list:
            data=[]
            item=str(item)
            #获取影片详情的链接
            link=re.findall(findlink,item)[0]
            data.append(link)
            #获取影片图片
            imgSrc=re.findall(findImgSrc,item)[0]
            data.append(link)
            #获取影片标题
            titles=re.findall(findTitle,item)
            if(len(titles)==2):
                ctitle=titles[0]#添加中文名
                data.append(ctitle)
                otitle=titles[1].replace("/","")#去掉无关的符号
                data.append(otitle)#添加外国名
            else:
                data.append(titles[0])
                data.append("")#留空
          #获取影片评分
            rating=re.findall(findRating,item)[0]
            data.append(rating)
            #获取影片评价人数
            judgeNum=re.findall(findJudge,item)[0]
            data.append(judgeNum)
            #获取影片简介
            inq=re.findall(findInq,item)
            if(len(inq)!=0):
                inq=inq[0].replace("。","")
                data.append(inq)
            else:
                data.append("")
            #获取影片介绍
            bd=re.findall(findBd,item)[0]
            bd=re.sub('<br(\s+)?/>(\s+)?'," ",bd)
            bd=re.sub("/"," ",bd)
            data.append(bd.strip())
            datalist.append(data)
    return datalist
def savedate(datalist,savepath):
    book = xlwt.Workbook(encoding="utf-8",style_compression=0)
    sheet = book.add_sheet("豆瓣电影top250",cell_overwrite_ok=True)  # 创建工作表
    col=("电影链接","图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")
    for i in range(0,8):
        sheet.write(0,i,col[i])#列名
    for i in range(0,250):
        print("这是%d条"%i)
        data=datalist[i]
        for j in range(0,8):
            sheet.write(i+1,j,data[j])#数据

    book.save(savepath)#保存
# 得到指定一个URL的网页内容
def askURL(url):
    head={  # 模拟浏览器头部信息,向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 89.0.4389.82 Safari / 537.36"
    } # 告诉豆瓣服务器,我们我什么类型的机器
    req=urllib.request.Request(url=url,headers=head)
    html=""
    try:
        response=urllib.request.urlopen(req)
        html=response.read().decode("utf-8")
    except urllib.error.URLError as e:
        print(e)
    return html
if __name__=="__main__":
    main()

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责,本站只提供参考并不构成任何投资及应用建议。本站是一个个人学习交流的平台,网站上部分文章为转载,并不用于任何商业目的,我们已经尽可能的对作者和来源进行了通告,但是能力有限或疏忽,造成漏登,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。

  • 项目经理 点击这里给我发消息
  • 项目经理 点击这里给我发消息
  • 项目经理 点击这里给我发消息
  • 项目经理 点击这里给我发消息