数据分析师还是算法工程师|用数据多角度解读如何选择
16lz
2021-01-22
01
数据获取与处理
本次样本数据采集于拉勾网,因为本文的重点是招聘数据分析,而在之前的文章中我们讲解过很多次如何使用requests爬取网页数据,这里就不再赘述,来看下爬取网站部分代码
url_html = 'https://www.lagou.com/jobs/list_' + job_position + '?labelWords=&fromSearch=true&suginput='
params = {
'city': job_address,
'first': 'true' if i == 1 else 'false',
'pn': i,
'kd': job_position}
# 创建一个session对象
s = requests.Session()
# 发送请求,获得cookies
s.get(url_html, headers=headers, data=params, timeout=4)
cookie = s.cookies
res = s.post(url_request, data=params, headers=headers, cookies=cookie, timeout=4) # 注意分析网页数据获取格式
res.encoding = res.apparent_encoding
text = json.loads(res.text)
本文在拉勾网招聘信息中选择北京、上海、广州、深圳、杭州这五个城市下分别以数据分析师、算法工程师为筛选条件来采集样本,采集到的原始数据如下
当然我们在进行数据分析时不需要图中这么多变量,因此对数据进行清洗后最终样本数量为1979条,并选择以下几个变量进行分析
02
薪资水平
我们首先来看下数据分析师与算法工程师的薪资水平密度分布图,绘制出这两个岗位的薪资分布密度图并标记出薪资的均值(图中虚线)©著作权归作者所有:来自51CTO博客作者mb5fe18e32e4691的原创作品,如需转载,请注明出处,否则将追究法律责任
更多相关文章
随机推荐