字节跳动保有控制权和核心算法
|
数据类型描述了数组中存储元素的本质。一个数组只有一个数据类型,数组中的每个元素在内存中占用的字节数是一样的。数据类型包括实数、复数、字符串、timestamp 和指针等。 数组的形状决定了每个轴上的元素数量,轴的数量即为数组的维数。例如,数字向量可存储为形状为 N 的一维数组,而彩色视频是形状为 (T, M, N, 3) 的四维数组。 步幅是解释计算机内存的必要组件,它可以线性地存储元素。步幅描述了在内存中逐行逐列移动时所需的字节数。例如,形状为 (4, 3) 的二维浮点数数组,它其中的每个元素均在内存中占用 8 个字节数。要想在连续列之间移动,我们需要在内存中前进 8 个字节数,要想到达下一行,则需要前进 3 × 8 = 24 个字节数。因此该数组的步幅为 (24, 8)。NumPy 可以用 C 或 Fortran 的内存顺序存储数组,沿着行或列遍历。这使得使用这些语言写的外部库可以直接访问内存中的 NumPy 数组数据。 用户使用「indexing」(访问子数组或单个元素)、「operators」(各种运算符)和「array-aware function」与 NumPy 数组进行交互。它们为 NumPy 数组编程提供了简明易懂、表达力强的高级 API,同时还考虑了维持快速运算的底层机制。 对数组执行 indexing 将返回单个元素、子数组或满足特定条件的元素(参见上图 1b)。数组甚至还可以用其他数组进行 indexing(参加图 1c)。返回子数组的 indexing 还可以返回原始数组的「view」,以便在两个数组之间共享数据。这就为内存有限的情况下基于数组数据子集进行运算提供了一种强大的方式。 为了补充数组语法,NumPy 还包括对数组执行向量化计算的函数,包括 arithmetic、statistics 和 trigonometry(参见图 1d)。向量化计算基于整个数组运行而不是其中的单个元素,这对于数组编程而言是必要的。这意味着,在 C 等语言中需要几十行才能表达的运算在这里只需一个清晰的 Python 表达式即可实现。这就带来了简洁的代码,并使得用户不必关注分析细节,同时 NumPy 以接近最优的方式循环遍历数组元素。 对两个形状相同的数组执行向量化计算(如加法)时,接下来会发生什么是很明确的。而「broadcasting」机制允许 NumPy 处理维度不同的数组之间的运算,例如向数组添加一个标量值。broadcasting 还能泛化至更复杂的示例,如缩放数组的每一列或生成坐标网格。在 broadcasting 中,单个或两个数组可以重叠(没有从内存中复制任何数据),使得 operands 的形状匹配(参见图 1d)。 其他 array-aware function(如加、求平均值、求最大值)都是执行逐元素的「reduction」,累积单个数组的一个、多个或所有轴上的结果。例如,将一个 n 维数组与 d 个轴进行累加,得到维度为 n − d 的数组(参见图 1f)。 NumPy 还包含可以创建、reshaping、concatenating 和 padding 数组,执行数据排序和计数,读取和写入文件的 array-aware function。这为生成伪随机数提供了大量支持,它还可以使用 OpenBLAS 或 Intel MKL 等后端执行加速线性代数。 总之,内存内的数组表示、紧密贴近数学的语法和多种 array-aware function 共同构成了生产力强、表达力强的数组编程语言。 科学 Python 生态系统 Python 是一个开源、通用的解释型编程语言,非常适合数据清洗、与 web 资源交互和解析文本之类的标准编程任务。添加快速数组操作和线性代数能够让科学家在一种编程语言中完成所有的工作。 尽管 NumPy 不是 Python 标准库的一部分,但它也从与 Python 开发者的良好关系中受益。在过去这些年中,Python 语言已经加入了一些新的功能和特殊的语法,以便 NumPy 具备更加简洁和易于阅读的数组表示法。但是,由于 NumPy 不是 Python 标准库的一部分,所以它能够规定自己的发布策略和开发模式。 从发展史、开发和应用的角度来看,SciPy 和 Matplotlib 与 NumPy 联系紧密。SciPy 为科学计算提供了基础算法,包括数学、科学和工程程序。Matplotlib 生成可发表品质的图表和可视化文件。NumPy、SciPy 和 Matplotlib 的结合,再加上 IPython、Jupyter 这类高级交互环境,为 Python 中的数组编程提供了坚实的基础。
如图 2 所示,科学 Python 生态系统建立在上述基础之上,它提供了多种广泛应用的专有技术库,而这又是众多领域特定项目的基础。NumPy 是这一 array-aware 库生态系统的基础,它设置了文档标准、提供了数组测试基础结构,并增加了对 Fortran 等编译器的构建支持。 (编辑:周口站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
