大多数基于 Python 开发的应用程序都会用到本地标准库和三方库,这样不仅能让我们把时间去关注真正的业务开发,也能学习到更多价值含量高的程序设计和开发思想。程序开发中有一句著名的话叫做:
Don’t re-invent the wheel (不重复发明轮子)
言简意骇表达了不要做重复的事情。既然有人帮你完成了需要做的事情,那么你就应该在合理适用的情况下利用它,从而避免造成不必要的时间浪费。
Python 库可以分为两大类,一类是标准库 ,一类是三方库 。标准库大都是下载对应 Python 版本时文件内置的,在程序中可直接调用且不需要用pip 包管理工具从互联网上下载。而三方库则是其他程序员为了更好的实现某种目标,在实际开发中逐渐衍生出来的函数库或副产品,然后将其放在互联网上我们共享。
无论是标准库还是三方库,对于我们来说都有学习价值。下面列举一些实际开发中可能会用到标准库(三方库下篇),以此来加深印象。
标准库
sys
系统相关的参数和函数。sys 库一般用来访问和修改系统相关信息,比如查看 python 版本、系统环境变量、模块信息和 python 解释器相关信息等等。
os
操作系统接口模块。这个库提供了访问操作系统相关依赖的方式,比如输入输出操作、读写操作、操作系统异常错误信息、进程线程管理、文件管理、调度程序等等。
re
正则表达式操作。这个库是我喜欢并且经常会用到的库,在对大量字符串进行处理的时候用正则表达式是最快速有效的方式,但是正则表达式的学习曲线较高,有兴趣的朋友可以访问这个网站学习。
math
数学函数库。math 库提供了对 C 语言标准定义的数学函数访问,比如数论(Number-theoretic)的各种表示方法、幂和对数函数(Power and logarithmic functions)、三角函数(Trigonometric functions)、常量圆周率(π)和自然常数(e)等等。
random
生成伪随机数。
伪随机数与随机数(真随机数)不同的是执行环境,随机数是真实世界中通过物理过程实践得出结论,而伪随机数是通过计算机的特定算法生成的数,所以这个过程是可预测的、有规律的,只是循环周期较长,并不能与现实场景相切合。
random库提供生成随机数,可以模拟现实世界中随机取数、随机抽奖等等。
logging
日志记录工具。这个库提供了对应用程序和库函数的日志记录,日常开发中我们经常需要通过日志打印出当前程序的运行状态,实时查看可能出现的堆栈异常和错误信息。
默认日志打印级别(可自定义):
json
Json 编码和解码器。json 库提供了对 json 数据的支持,日常开发中我们做前后端分离需要对传输数据 json 进行序列化和反序列化操作,以保证对数据的完整性和有效性,而序列化和反序列化其实就是编码和解码的过程。
pickle
Python 对象序列化库。pickle 库支持对 python 对象进行序列化和反序列化操作,当我们需要将处理好的对象保存到文件或数据库中时,就可以将其序列化成二进制数据,从而更好的保存起来。
shelve
Python 对象持久化。简单的数据存储方案。
socket
底层网络接口。socket(套接字) 库提供了标准的BSD(伯克利套接字) Socket API,可以通过访问底层操作系统 Socket 的相关接口进行网络通讯。
datetime
基本日期和时间类型库。该库提供了各种简单和复杂的方式处理日期和时间,日常我们会用时间测算时间消耗、复杂度,对存储的创建时间和修改时间也需要进一步说明,对计时器的描述和控制也需要用到该库。
hashlib
安全哈希和消息摘要。摘要算法 其实就是对某些数据进行加密(不可逆的加密算法),因为被加密的数据无法破解,所以就能防止被篡改。常见的摘要算法有 MD5、SHA1python堆,一般我们会用 MD5 对用户口令进行加密,防止盗用后被轻易破解;而 SHA1 与 MD5 类似,但是 SHA1 会产生更长的长度,也更安全,但是算法的复杂性通常伴随着存储空间和时间的消耗。要说比SHA1更长的字符长度,还有 SHA224、SHA256、SHA384 和 SHA512,看名字就能知道。
大家都知道无论算法生成的字符长度如何都有可能发生碰撞(被破解)python堆,这是不可避免的,所以具体场景具体情况而定。
configparser
配置文件解析器。configparser 库可以轻松定制配置文件,通过解析配置文件的信息我们就可以全局访问相关配置。
urllib
URL 处理模块。urllib 库集成了处理 URLs(统一资源定位符)的各种模块:
URL
urllib.request
URL
robots.txt
urllib 库对访问网络有很好的支持,提供了对数据的访问和处理、文件的上传和下载、记录 cookie 和 session 等等。
itertools
为高效循环而创建迭代器的函数。itertools 库也是经常需要用到,当我们要对某些数进行for-in 时就需要先将其处理成一个可迭代对象,之后我们才能进行遍历操作。
collections
容器数据类型库。collections 库提供了对所有容器数据类型的支持,包括 dict, list, set 和 tuple。我们可以用此库对不同数据类型进行操作,常有的函数方法有这些:
namedtuple() 创建命名元组子类的工厂函数
deque 类似列表(list)的容器,实现了在两端快速添加(append)和弹出(pop)
ChainMap 类似字典(dict)的容器类,将多个映射集合到一个视图里面
Counter 字典的子类,提供了可哈希对象的计数功能
OrderedDict 字典的子类,保存了他们被添加的顺序
defaultdict 字典的子类,提供了一个工厂函数,为字典查询提供一个默认值
UserDict 封装了字典对象,简化了字典子类化
UserList 封装了列表对象,简化了列表子类化
UserString 封装了列表对象,简化了字符串子类化
functools
高阶函数和可调用对象上的操作。该库主要调用高阶函数,是常规函数的一种补充。目前库中包含以下几种函数:
cmp_to_key
lru_cache
total_ordering
partial
partialmethod
reduce
singledispatch
update_wrapper
wraps
threading
线程并行库。threading 库支持线程和多线程的操作,针对多线程并发的问题可以给数据加同步锁,一次只能让一个线程处理数据,从而避免出现数据读写混乱。
在 CPython 解释器上,因为GIL(全局解释器锁)锁机制的存在的,被设计成线程安全,所以同一时间只能执行一个线程,这就导致了多线程不能发挥出计算机的多核特性。
multiprocessing
进程并行库。multiprocessing 库与threading 库很类似,不同的是进程库可以创建子进程避开 GIL,从而弥补线程库存在的劣势和发挥计算机的多核特性。
timeit
测量小代码片段的执行时间。此库主要用来计算运行代码的时间消耗,支持多种方式传入参数。
atexit
退出处理器。当处理一个函数需要立马退出时可以使用该库。
abc
抽象基类。abc 库定义抽象基类,以便其他类派生出新类。比如collections 容器库中就有此派生出的 collections.abc 类,派生出来的类可以进一步实现。
asyncio
异步IO库。asyncio 库是一个用async/await 关键字编写并发的库,为多个异步框架提供基础功能,能够实现高性能的网络、Web服务器、数据库连接和分布式任务队列等。
异步开发中asyncio 库提供两类API,高阶API:
Coroutines and Tasks
Streams
Synchronization Primitives
Subprocesses
Queues
Exceptions
List item
和低阶API:
Event Loop
Futures
Transports and Protocols
Policies
Platform Support
base64
数据编码库。base64 库用于对原始二进制数据进行编码,从而方便数据能在互联网上传播。
例如,当我们需要用 json 数据来传播一张图片时,就需要先对图片的二进制数据进行编码(json 不能携带二进制数据)后保存到 value 当中,当另一方拿到 json 数据后就可以用同类的算法进行解码,从而得到二进制图片数据。
base64 库中提供多种编码算法,最著名的莫过于以他命名的 base64。base64 的编码方式是将二进制数据 000000 到111111 的 64 种状态编码成 0-9 的数字、a-z、A-Z 字母以及+ 号和/ 号,以 6 位一组的方式进行编码。当二进制数据不足 6 位时会通过补位和标记的方式处理,具体看这里。
除 base64 外,base64 库还提供其他的编码算法,例如 base16、base32、ascii85 和 base85。需要注意的是,base64 严格意义上不能算是一种加密,而是编码转换,用于转换为可见字符串。
启动并行任务。concurrent.futures 库提供高层次的接口来实现异步调用,有两种方式,一种是为线程实现的 ThreadPoolExecutor ,一种是为进程实现的ProcessPoolExecutor ,从名字可以看出,两则都是从Executor 抽象类中实现而来。
copy
浅层和深层复制操作。copy 库提供对对象的拷贝,我们都知道要制作对象副本,是无法通过简单值传递创建新变量的方式做到,因为新变量所指向的内存空间依旧是原对象本身,所以对新变量进行任何操作都会改变原对象。那么,copy 库就提供了制作对象副本的各种方法,会开辟一个新的内存空间存放副本对象,修改操作不会对原对象有任何干预。
csv
csv(Comma Separated Values)文件读写库。此库支持以纯文本的形式存储表格数据(数字和文本)。
operator
标准运算符替代函数库。此库是将 python 自有的运算符作为有效函数,比如表达式x+y 可以用函数 operator.add(x, y) 表示;比如表达式a*b 可以用函数operator.mul(a, b) 表示,等等。
enum
枚举库。enum 库支持创建枚举类来存储大量同类型的不可变常量,以便其他函数调用。创建出来的枚举类是可迭代对象,所以可以用for-in 枚举出所有常量。
heapq
堆队列算法。这个模块提供了堆队列算法的实现,也称为优先队列算法。优先队列中的每个元素都有各自的优先级,优先级最高的元素最先得到服务。所以当我们要求前n最大/最小值的时候就可以用此算法来实现, heapq 库中也提供了相应函数实现。
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,一年会员只需98元,全站资源免费下载 点击查看详情
站 长 微 信: muyang-0410