长安铃木经销商爬取(解析xml、post提交、python中使用js代码)
16lz
2021-01-22
1、通过火狐浏览器,查找大长安铃木官网中关于经销商的信息主要在两个网页中
http://www.changansuzuki.com/khfw/xml/pro.xml 地域信息
http://www.changansuzuki.com/khfw/sqcx.php 查询经销商具体信息
2、第一步解析地域信息
上面的图为xml中的格式
3、解析XML文件主要代码
1 def get_area_list(self): 2 """获取地域省份和城市名称字典""" 3 page = urllib2.urlopen(self.xml_url).read() 4 area_list = {} 5 root = ElementTree.fromstring(page) 6 #读取xml格式文本 7 for onep in root: 8 province = onep.get('name') 9 #父标签中的name数据(province中) 10 city_list = [] 11 for onec in onep: 12 #子标签中的name数据(city中) 13 city = onec.get('name') 14 city_list.append(city) 15 area_list[province] = city_list 16 #返回一个省份与城市关系的字典,即:{省份名称:[城市名称1,城市名称2,···]} 17 return area_list
更多相关文章
- Python NameError:全局名称“Form”没有定义pyqt
- Python(名称空间、函数嵌套、函数对象)
- Python 3.4中的Pytesser:名称“image_to_string”没有定义?
- 获取网卡名称 linux c
- 如何利用SQL语句查询数据库中所有表的名称?
- 如果在两个模式中存在具有相似名称的删除表
- MS ACCESS jdbc.odbc连接。未找到数据源名称/未指定默认驱动程序
- 待解决 WIN7下安装完sql2005后没有服务器名称
- SQL Server 批量更新字段值为ROW_NUMBER()+列名称