1. read、readline、readlines

  • read()  :一次性读取整个文件内容。推荐使用read(size)方法,size越大运行时间越长
  • readline()  :每次读取一行内容。内存不够时使用,一般不太用
  • readlines()   :一次性读取整个文件内容,并按行返回到list,方便我们遍历

具体用法可见:一文搞懂python文件读写

2. 内置模块csv

python内置了csv模块用于读写csv文件,csv是一种逗号分隔符文件,是数据科学中最常见的数据存储格式之一。csv模块能轻松完成各种体量数据的读写操作,当然大数据量需要代码层面的优化。

  • csv模块读取文件
# 读取csv文件
import csv
with open('test.csv','r') as myFile:
   lines=csv.reader(myFile)
   for line in lines:
       print (line)
  • csv模块写入文件
import csv
with open('test.csv','w+') as myFile:
   myWriter=csv.writer(myFile)
   # writerrow一行一行写入
   myWriter.writerow([7,8,9])
   myWriter.writerow([8,'h','f'])
   # writerow多行写入
   myList=[[1,2,3],[4,5,6]]
   myWriter.writerows(myList)


3. numpy库

  • loadtxt方法

loadtxt用来读取文本文件(包含txt、csv等)以及.gz 或.bz2格式压缩文件,前提是文件数据每一行必须要有数量相同的值。

import numpy as np
# loadtxt()中的dtype参数默认设置为float
# 这里设置为str字符串便于显示
np.loadtxt('test.csv',dtype=str)
# out:array(['1,2,3', '4,5,6', '7,8,9'], dtype='<U5')
  • load方法

load用来读取numpy专用的.npy.npz 或者pickled持久化文件。

import numpy as np
# 先生成npy文件
np.save('test.npy', np.array([[1, 2, 3], [4, 5, 6]]))
# 使用load加载npy文件
np.load('test.npy')
'''
out:array([[1, 2, 3],
      [4, 5, 6]])
'''

  • fromfile方法

fromfile方法可以读取简单的文本数据或二进制数据,数据来源于tofile方法保存的二进制数据。读取数据时需要用户指定元素类型,并对数组的形状进行适当的修改。

import numpy as np
x = np.arange(9).reshape(3,3)
x.tofile('test.bin')
np.fromfile('test.bin',dtype=np.int)
# out:array([0, 1, 2, 3, 4, 5, 6, 7, 8])


4. pandas库

pandas是数据处理最常用的分析库之一,可以读取各种各样格式的数据文件,一般输出dataframe格式。如:txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等

  • read_csv方法read_csv方法用来读取csv格式文件,输出dataframe格式。
import pandas as pd
pd.read_csv('test.csv')
  • read_excel方法

读取excel文件,包括xlsx、xls、xlsm格式

import pandas as pd
pd.read_excel('test.xlsx')
  • read_table方法

通过对sep参数(分隔符)的控制来对任何文本文件读取

  • read_json方法

读取json格式文件

df = pd.DataFrame([['a', 'b'], ['c', 'd']],index=['row 1', 'row 2'],columns=['col 1', 'col 2'])
j = df.to_json(orient='split')
pd.read_json(j,orient='split')
  • read_html方法

读取html表格

  • read_clipboard方法

读取剪切板内容

  • read_pickle方法

读取plckled持久化文件

  • read_sql方法

读取数据库数据,连接好数据库后,传入sql语句即可

  • read_dhf方法

读取hdf5文件,适合大文件读取

  • read_parquet方法

读取parquet文件

  • read_sas方法

读取sas文件

  • read_stata方法

读取stata文件

  • read_gbq方法

读取google bigquery数据

pandas学习网站:https://pandas.pydata.org/

5、读写excel文件

python用于读写excel文件的库有很多,除了前面提到的pandas,还有xlrd、xlwt、openpyxl、xlwings等等。

主要模块:

  • xlrd库

从excel中读取数据,支持xls、xlsx

  • xlwt库

对excel进行修改操作,不支持对xlsx格式的修改

  • xlutils库

在xlw和xlrd中,对一个已存在的文件进行修改

  • openpyxl

主要针对xlsx格式的excel进行读取和编辑

  • xlwings

对xlsx、xls、xlsm格式文件进行读写、格式修改等操作

  • xlsxwriter

用来生成excel表格,插入数据、插入图标等表格操作,不支持读取

  • Microsoft Excel API

需安装pywin32,直接与Excel进程通信,可以做任何在Excel里可以做的事情,但比较慢

6. 操作数据库

python几乎支持对所有数据库的交互,连接数据库后,可以使用sql语句进行增删改查。

主要模块:

  • pymysql

用于和mysql数据库的交互

  • sqlalchemy

用于和mysql数据库的交互

  • cx_Oracle

用于和oracle数据库的交互

  • sqlite3

内置库,用于和sqlite数据库的交互

  • pymssql

用于和sql server数据库的交互

  • pymongo

用于和mongodb非关系型数据库的交互

  • redis、pyredis

用于和redis非关系型数据库的交互

使用参考地址:https://blog.csdn.net/a87b01c14/article/details/51546727

关于如何使用python连接mysql:pymysql操作实例


©著作权归作者所有:来自51CTO博客作者mb5fe18fab305a5的原创作品,如需转载,请注明出处,否则将追究法律责任

更多相关文章

  1. java 读取 application配置文件
  2. 教你使用Python批量读写excel文件
  3. 一文搞懂Python文件读写
  4. Python 进阶之源码分析:如何将一个类方法变为多个方法?
  5. Java常用的时间工具类DateTimeUtils.java对常用的时间操作方法总
  6. oss上传文件阿里云(js版本)
  7. join()方法的神奇用处与Intern机制的软肋
  8. 再谈文件读写:判断文件的几种方法及其优劣对比
  9. 给Python学习者的文件读写指南(含基础与进阶,建议收藏)

随机推荐

  1. 子网掩码的进制转换
  2. vtp实验
  3. 共享文件夹
  4. 华为ensp链路聚合综合实验
  5. Kafka 原理以及分区分配策略剖析
  6. 单臂路由
  7. 说话时如何把“NO”变成“yes”?
  8. Azure DevTest Lab体验(二)用户测试
  9. 链路追踪 SkyWalking 源码分析 —— Coll
  10. 链路追踪 SkyWalking 源码分析 —— Coll