找一个地方,或者是一件事情,可以沉浸下来思考,思考下一步怎么做,个人经验是,在愉阅读中,或者是某个令人愉悦的视频中,通过别人的做法或想法,来整理自己的想法,来计划自己的路线。
想做成某件事,达到某种结果,但是又觉得无从下手,烦乱不安,来回踱步,目光不定。还是根据以往的经验,多给自己找一些事情,把任务列表拉长了,压力就来了,压力,这个老话题,过不去的坎。
在编码没一定着落之前,放弃其他一切的活动。
尽量保持每天都写一篇日志。
jsut rolling
找一个地方,或者是一件事情,可以沉浸下来思考,思考下一步怎么做,个人经验是,在愉阅读中,或者是某个令人愉悦的视频中,通过别人的做法或想法,来整理自己的想法,来计划自己的路线。
想做成某件事,达到某种结果,但是又觉得无从下手,烦乱不安,来回踱步,目光不定。还是根据以往的经验,多给自己找一些事情,把任务列表拉长了,压力就来了,压力,这个老话题,过不去的坎。
在编码没一定着落之前,放弃其他一切的活动。
尽量保持每天都写一篇日志。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46# -*- coding: utf-8 -*-
# info: fanchuang 2018/6/3 20:08
# 目的: 写一个获取西刺代理的小文件,用面向对象的思想
# 使用此文件: 1. d = DaiLi(); 2. d.enjoy()
import random
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
class DaiLi:
def __init__(self):
self.door = 'http://www.xicidaili.com/nn/1'
self.headers = {'User-Agent': UserAgent().random}
self.s = requests.Session()
self.proxies = []
def getProxies(self):
resp = self.s.get(self.door, headers=self.headers)
if resp.status_code == 200:
soup = BeautifulSoup(resp.text, 'lxml')
tar = soup.find_all('tr', class_='odd')
for t in tar:
kids = t.find_all('td')
# 判断并过滤类型,个人认为HTTPS的好用一些。
if kids[5].text == "HTTPS":
# 判断并过滤存活时间
if "天" in kids[8].text:
# 拿到ip地址和端口号
daili = ":".join([kids[1].text, kids[2].text])
# print("ip + port:", daili)
self.proxies.append(daili)
else:
print('sorry,nothing: ' + str(resp.status_code))
return self.proxies
def enjoy(self):
return random.choice(self.getProxies())
if __name__ == '__main__':
d = DaiLi()
# d.enjoy()
print(d.enjoy())
1 | # -*- coding: utf-8 -*- |
话说我是多么想去南方啊。草木丰盛。
感谢知乎各位大神,我这篇磕磕碰碰的爬虫总算是完成了,差不多搞了2周啊。主要参考这篇
1 | from gevent import monkey |
包法利夫人读起来感觉很好,鼠疫简直读不下去。
1 | 1. 释迦牟尼:这种不注意周围环境的心理往往足以遏制改进物质生活的愿望,而改进物质生活的愿望,会给科学知识的进步带来推动力。 |
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
'''
gevent downlaod
gevent is much faster than multiprocessing.dummy
'''
import requests
import re
import time
import os
import gevent
from gevent import monkey
monkey.patch_all()
def get_page(url):
cont = requests.get(url).content
with open(url.split('/')[-1], 'wb') as f:
f.write(cont)
urls = [u.strip() for u in open('us.txt', 'r')]
tasks = [gevent.spawn(get_page, url) for url in urls]
gevent.joinall(tasks)
1 | # -*- coding: utf-8 -*- |
1 | # -*- coding: utf-8 -*- |
1 | # -*- coding: utf-8 -*- |
tag:
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true