01

数据获取与处理


本次样本数据采集于拉勾网,因为本文的重点是招聘数据分析,而在之前的文章中我们讲解过很多次如何使用requests爬取网页数据,这里就不再赘述,来看下爬取网站部分代码

url_html = 'https://www.lagou.com/jobs/list_' + job_position + '?labelWords=&fromSearch=true&suginput='  
params = {
            'city': job_address,
            'first''true' if i == 1 else 'false',
            'pn': i,
            'kd': job_position}
 # 创建一个session对象
s = requests.Session()
# 发送请求,获得cookies
s.get(url_html, headers=headers, data=params, timeout=4)
cookie = s.cookies
res = s.post(url_request, data=params, headers=headers, cookies=cookie, timeout=4# 注意分析网页数据获取格式
res.encoding = res.apparent_encoding
text = json.loads(res.text)

本文在拉勾网招聘信息中选择北京、上海、广州、深圳、杭州这五个城市下分别以数据分析师、算法工程师为筛选条件来采集样本,采集到的原始数据如下

当然我们在进行数据分析时不需要图中这么多变量,因此对数据进行清洗后最终样本数量为1979条,并选择以下几个变量进行分析


02

薪资水平



我们首先来看下数据分析师与算法工程师的薪资水平密度分布图,绘制出这两个岗位的薪资分布密度图并标记出薪资的均值(图中虚线)©著作权归作者所有:来自51CTO博客作者mb5fe18e32e4691的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. 使用Python进行数据降维|线性降维
  2. 快速提高Python数据分析速度的八个技巧
  3. python数据分析——如何用python连接远程数据库
  4. 更高级的数据可视化,使用pyecharts制作精美图表
  5. 技术解析:如何获取全球疫情历史数据并处理
  6. 疫情数据哪里找,看这篇就够了
  7. python数据分析万字干货!一个数据集全方位解读pandas
  8. python数据分析——详解python读取数据相关操作
  9. 数据工程师需要掌握的18个python库

随机推荐

  1. Android(安卓)Material Design 之 Bottom
  2. 巨好的入门写精通
  3. Android 月活跃人数超过10亿用户了,我却审
  4. Android菜鸟的成长笔记(15)—— Android中
  5. Android使用Linux mount获取SdCard存储目
  6. Android(安卓)10 获取剪切板内容
  7. Android(安卓)cannot access localhost?
  8. Android的深層之美
  9. Android Framework分析 ---- 1消息处理机
  10. android -- FileObserver 类用法及限制