python 简单爬虫学习python将近一个月了,
学习的过程是崎岖的,
重在坚持。
自己写的一个python脚本,抓起一个视频网站上的资源
中间有重复的内容,
运行后 会生成6v1文件,里面有所有链接。
分享一下,有bug 希望大神指点。
奉上截图一张
#! /usr/bin/env python
__author__ = 'cont'
import os
page1_url=[]
url_list=[]
import urllib.request
i=0
def get_title(url_name):
##获取页面title
url_n...
学习python将近一个月了,
学习的过程是崎岖的,
重在坚持。
自己写的一个python脚本,抓起一个视频网站上的资源
中间有重复的内容,
运行后 会生成6v1文件,里面有所有链接。
分享一下,有bug 希望大神指点。
奉上截图一张
#! /usr/bin/env python
__author__ = 'cont'
import os
page1_url=[]
url_list=[]
import urllib.request
i=0
def get_title(url_name):
##获取页面title
url_name_read=urllib.request.urlopen('').read()
open ('temp1','wb').write(url_name_read)
url_open=open('temp','r').read(500)
title_start=url_open.find('
')
title_end=url_open.find('',title_start)
title=url_open[title_start+7:title_end-27]
return title
##获取main_page中的url
main_page=urllib.request.urlopen('').read()
main_page=str(main_page)
main_li=main_page.find('
')
main_href=main_page.find('',main_html)
main_href=main_page.find('",l_href)
print(page2[l_href+6:l_end])
print('第',i,'个页面')
#循环实现url提取
while True:
l_start=page2.find('",l_href)
if l_start!=-1 and l_end!=-1 and l_href!=-1:
url_url=page2[l_href+6:l_end]
url_url1=page2[l_href+6:l_end+100]
#判断是否为百度云地址,并获取密码
if url_url.find('baidu')!=-1:
baidu_url=url_url1.find('baidu')
end_password=url_url1.find('td>',baidu_url)
print(url_url,'The password is',url_url1[end_password-10:end_password-2])
open('6v1','a',encoding='UTF-8').write(url_url+' ---The password is:-- '+url_url1[end_password-10:end_password-2]+'\n')
else:
print( url_url)
#encoding='UTF-8'解决print和write不同的情况
open('6v1','a',encoding='UTF-8').write(url_url+'\n')
else:
print('main page url getted')
break
本文档为【python 简单爬虫】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
|