目录
一、带有返回值的多线程
1.1 实现代码
1.2 结果
二、实现过程
2.1 一个普通的爬虫函数
2.2 一个简单的多线程传值实例
2.3 实现重点
四、学习

一、带有返回值的多线程

1.1 实现代码
`# -- coding:utf-8 --
“””
作者:wyt
日期:2022年05月3日
“””
import threading
import requests
import time
urls = [
f’https://www.cnblogs.com/‘ # 待爬地址
for page in range(1, 10) # 爬取1-10页
]
def craw(url):
r = requests.get(url)
num = len(r.text) # 爬取博客园当页的文字数
return num # 返回当页文字数

def sigle(): # 单线程
res = []
for i in urls:
res.append(craw(i))
return res
class MyThread(threading.Thread): # 重写threading.Thread类,加入获取返回值的函数
def init(self, url):
threading.Thread.init(self)
self.url = url # 初始化传入的url
def run(self): # 新加入的函数,该函数目的:
self.result = craw(self.url) # ①。调craw(arg)函数,并将初试化的url以参数传递——实现爬虫功能

  1. # ②。并获取craw(arg)函数的返回值存入本类的定义的值result中
  2. def get_result(self): #新加入函数,该函数目的:返回run()函数得到的result
  3. return self.result

def multithread():
print(“start”)
threads = [] # 定义一个线程组
for url in urls:
threads.append( # 线程组中加入赋值后的MyThread类
MyThread(url) # 将每一个url传到重写的MyThread类中
)
for thread in threads: # 每个线程组start
thread.start()
for thread in threads: # 每个线程组join
thread.join()
list = []
for thread in threads:
list.append(thread.getresult()) # 每个线程返回结果(result)加入列表中
print(“end”)
return list # 返回多线程返回的结果组成的列表
if name == ‘__main
‘:
start_time = time.time()
result_multi = multi_thread()
print(result_multi) # 输出返回值-列表

  1. # result_sig = sigle()
  2. # print(result_sig)
  3. end_time = time.time()
  4. print('用时:', end_time - start_time)`

1.2 结果
单线程:

在这里插入图片描述

多线程:

在这里插入图片描述

加速效果明显。

二、实现过程

2.1 一个普通的爬虫函数
`import threading
import requests
import time
urls = [
f’https://www.cnblogs.com/‘ # 待爬地址
for page in range(1, 10) # 爬取1-10页
]
def craw(url):
r = requests.get(url)
num = len(r.text) # 爬取博客园当页的文字数
print(num)
def sigle(): # 单线程
res = []
for i in urls:
res.append(craw(i))
return res
def multithread():
print(“start”)
threads = [] # 定义一个线程组
for url in urls:
threads.append(
threading.Thread(target=craw,args=(url,)) # 注意args=(url,),元组
)
for thread in threads: # 每个线程组start
thread.start()
for thread in threads: # 每个线程组join
thread.join()
print(“end”)
if name == ‘_main
‘:
start_time = time.time()
result_multi = multi_thread()

  1. # result_sig = sigle()
  2. # print(result_sig)
  3. end_time = time.time()
  4. print('用时:', end_time - start_time)`

返回:

start
69915
69915
69915
69915
69915
69915
69915
69915
69915
end
用时: 0.316709041595459

Python客栈送hong包、纸质书

2.2 一个简单的多线程传值实例
import timefrom threading import Threaddef foo(number): time.sleep(1) return numberclass MyThread(Thread): def __init__(self, number): Thread.__init__(self) self.number = number def run(self): self.result = foo(self.number) def get_result(self): return self.resultif __name__ == '__main__': thd1 = MyThread(3) thd2 = MyThread(5) thd1.start() thd2.start() thd1.join() thd2.join() print(thd1.get_result()) print(thd2.get_result())
返回:

3
5

2.3 实现重点
多线程入口

1
threading.Thread(target=craw,args=(url,)) # 注意args=(url,),元组
多线程传参

需要重写一下threading.Thread类,加一个接收返回值的函数。 三、代码实战

使用这种带返回值的多线程技术重写了一下之前发布过的一个爬取子域名的代码,原始代码在这里:https://blog.csdn.net/qq_45859826/article/details/124030119
`import threading
import requests
from bs4 import BeautifulSoup
from static.plugs.headers import get_ua

https://cn.bing.com/search?q=site%3Abaidu.com&go=Search&qs=ds&first=20&FORM=PERE

def search_1(url):
Subdomain = []
html = requests.get(url, stream=True, headers=get_ua())
soup = BeautifulSoup(html.content, ‘html.parser’)
job_bt = soup.findAll(‘h2’)
for i in job_bt:
link = i.a.get(‘href’)

  1. # print(link)
  2. if link not in Subdomain:
  3. Subdomain.append(link)
  4. return Subdomain

class MyThread(threading.Thread):
def init(self, url):
threading.Thread.init(self)
self.url = url
def run(self):
self.result = search1(self.url)
def getresult(self):
return self.result
def Bingmultithread(site):
print(“start”)
threads = []
for i in range(1, 30):
url = “https://cn.bing.com/search?q=site%3A“ + site + “&go=Search&qs=ds&first=” + str(
(int(i) - 1) * 10) + “&FORM=PERE”
threads.append(
MyThread(url)
)
for thread in threads:
thread.start()
for thread in threads:
thread.join()
res_list = []
for thread in threads:
res_list.extend(thread.get_result())
res_list = list(set(res_list)) #列表去重
number = 1
for i in res_list:
number += 1
number_list = list(range(1, number + 1))
dict_res = dict(zip(number_list, res_list))
print(“end”)
return dict_res
if __name
== ‘__main
‘:
print(Bing_multi_thread(“qq.com”))`

更多相关文章

  1. Android(安卓)Handler使用
  2. android - 为响应度而设计 - 开发文档翻译
  3. Android自用-----AsyncTask实现异步处理任务
  4. Android的Handler总结
  5. android的消息处理机制(图+源码分析)
  6. Android,Thread+Handler 线程 消息循环
  7. Android简明开发教程十九:线程 Bezier曲线
  8. Android的Handler总结
  9. Android异步处理常用方法

随机推荐

  1. Mysql数据库学习笔记(一)
  2. SQL Server 2012失败:导入平面文件时,日期
  3. MySQL学习笔记01安装MySQL服务器软件
  4. mysql--查看mysql状态的常用命令
  5. oracle --sql--转换表字段日期格式(年月日
  6. 不制作证书是否能加密SQLSERVER与客户端
  7. 带有GROUP BY id的T-SQL SELECT
  8. 第15天(就业班) 课程回顾、mysql安装、管
  9. Mysql 创建,授权,删除,修改用户
  10. 创业团队为什么要选择Oracle而不是MySQL?