python 简单爬虫下载_Word模板_6

is_105949

暂无简介

python 简单爬虫学习python将近一个月了，学习的过程是崎岖的，重在坚持。自己写的一个python脚本，抓起一个视频网站上的资源中间有重复的内容，运行后会生成6v1文件，里面有所有链接。分享一下，有bug 希望大神指点。奉上截图一张 #! /usr/bin/env python __author__ = 'cont' import os page1_url=[] url_list=[] import urllib.request i=0 def get_title(url_name): ##获取页面title url_n...

学习python将近一个月了，学习的过程是崎岖的，重在坚持。自己写的一个python脚本，抓起一个视频网站上的资源中间有重复的内容，运行后会生成6v1文件，里面有所有链接。分享一下，有bug 希望大神指点。奉上截图一张 #! /usr/bin/env python __author__ = 'cont' import os page1_url=[] url_list=[] import urllib.request i=0 def get_title(url_name): ##获取页面title url_name_read=urllib.request.urlopen('').read() open ('temp1','wb').write(url_name_read) url_open=open('temp','r').read(500) title_start=url_open.find('') title_end=url_open.find('',title_start) title=url_open[title_start+7:title_end-27] return title ##获取main_page中的url main_page=urllib.request.urlopen('').read() main_page=str(main_page) main_li=main_page.find('

') main_href=main_page.find('',main_html) main_href=main_page.find('",l_href) print(page2[l_href+6:l_end]) print('第',i,'个页面') #循环实现url提取 while True: l_start=page2.find('",l_href) if l_start!=-1 and l_end!=-1 and l_href!=-1: url_url=page2[l_href+6:l_end] url_url1=page2[l_href+6:l_end+100] #判断是否为百度云地址，并获取密码 if url_url.find('baidu')!=-1: baidu_url=url_url1.find('baidu') end_password=url_url1.find('td>',baidu_url) print(url_url,'The password is',url_url1[end_password-10:end_password-2]) open('6v1','a',encoding='UTF-8').write(url_url+' ---The password is:-- '+url_url1[end_password-10:end_password-2]+'\n') else: print( url_url) #encoding='UTF-8'解决print和write不同的情况 open('6v1','a',encoding='UTF-8').write(url_url+'\n') else: print('main page url getted') break

本文档为【python 简单爬虫】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

python 简单爬虫

热门搜索

历史搜索