基础知识,PHP源码分析
分类:web前端

一、 基础知识
  本章简要介绍一些Zend引擎的内部机制,这些知识和Extensions密切相关,同时也可以帮助我们写出更加高效的PHP代码。
  1.1 PHP变量的存储
  1.1.1 zval结构
  Zend使用zval结构来存储PHP变量的值,该结构如下所示:
复制代码 代码如下:
typedef union _zvalue_value {
long lval; /* long value */
double dval; /* double value */
struct {
char *val;
int len;
} str;
HashTable *ht; /* hash table value */
zend_object_value obj;
} zvalue_value;
struct _zval_struct {
/* Variable information */
zvalue_value value; /* value */
zend_uint refcount;
zend_uchar type; /* active type */
zend_uchar is_ref;
};
typedef struct _zval_struct zval;
Zend根据type值来决定访问value的哪个成员,可用值如下:

  1. 变量的三要素
    变量名称,变量类型,变量值

HashTable是Zend引擎中最重要、使用最广泛的数据结构,它被用来存储几乎所有的东西。1.2.1 数据结构HashTable数据结构定义如下:复制代码 代码如下:typedef struct bucket {ulong h;// 存放hashuint nKeyLength;void *pData;// 指向value,是用户数据的副本void *pDataPtr;struct bucket *pListNext;// pListNext和pListLast组成struct bucket *pListLast;// 整个HashTable的双链表struct bucket *pNext;// pNext和pLast用于组成某个hash对应struct bucket *pLast;// 的双链表char arKey[1];// key} Bucket;

IS_NULLN/A

那么在PHP用户态下变量类型都有哪些,如下:

typedef struct _hashtable {uint nTableSize;uint nTableMask;uint nNumOfElements;ulong nNextFreeElement;Bucket *pInternalPointer;/* Used for element traversal */Bucket *pListHead;Bucket *pListTail;Bucket **arBuckets;// hash数组dtor_func_t pDestructor;// HashTable初始化时指定,销毁Bucket时调用zend_bool persistent;// 是否采用C的内存分配例程unsigned char nApplyCount;zend_bool bApplyProtection;#if ZEND_DEBUGint inconsistent;#endif} HashTable;

  IS_LONG对应value.lval

// Zend/zend.h#define IS_NULL     0 #define IS_LONG     1 #define IS_DOUBLE   2 #define IS_BOOL     3 #define IS_ARRAY    4 #define IS_OBJECT   5 #define IS_STRING   6 #define IS_RESOURCE 7 #define IS_CONSTANT 8 #define IS_CONSTANT_AST 9 #define IS_CALLABLE 10

总的来说,Zend的HashTable是一种链表散列,同时也为线性遍历进行了优化,图示如下:

  IS_DOUBLE对应value.dval

  1. 变量值和变量类型的存储
    变量的类型和值被存储在结构体zval中,如下:

    / Zend/zend_types.htypedef struct _zval_struct zval;// Zend/zend.htypedef union _zvalue_value { long lval; / long value / double dval; / double value / struct { char val; int len; } str; HashTable ht; / hash table value / zend_object_value obj; zend_ast ast; } zvalue_value; struct _zval_struct { / Variable information / zvalue_value value; / value / zend_uint refcount__gc; zend_uchar type; / active type */ zend_uchar is_ref__gc; };

HashTable中包含两种数据结构,一个链表散列和一个双向链表,前者用于进行快速键-值查询,后者方便线性遍历和排序,一个Bucket同时存在于这两个数据结构中。关于该数据结构的几点解释:链表散列中为什么使用双向链表?一般的链表散列只需要按key进行操作,只需要单链表就够了。但是,Zend有时需要从链表散列中删除给定的Bucket,使用双链表可以非常高效的实现。nTableMask是干什么的?这个值用于hash值到arBuckets数组下标的转换。当初始化一个HashTable,Zend首先为arBuckets数组分配nTableSize大小的内存,nTableSize取不小于用户指定大小的最小的2^n,即二进制的10*。nTableMask = nTableSize – 1,即二进制的01*,此时h & nTableMask就恰好落在 [0, nTableSize – 1] 里,Zend就以其为index来访问arBuckets数组。pDataPtr是干什么的?通常情况下,当用户插入一个键值对时,Zend会将value复制一份,并将pData指向value副本。复制操作需要调用Zend内部例程 emalloc来分配内存,这是个非常耗时的操作,并且会消耗比value大的一块内存,如果value很小的话,将会造成较大的浪费。考虑到HashTable多用于存放指针值,于是Zend引入pDataPtr,当value小到和指针一样长时,Zend就直接将其复制到pDataPtr里,并且将pData指向pDataPtr。这就避免了emalloc操作,同时也有利于提高Cache命中率。arKey大小为什么只有1?为什么不使用指针管理key?arKey是存放key的数组,但其大小却只有1,并不足以放下key。在HashTable的初始化函数里可以找到如下代码:复制代码 代码如下: p = pemalloc - 1 + nKeyLength, ht->persistent);可见,Zend为一个Bucket分配了一块足够放下自己和key的内存,上半部分是Bucket,下半部分是key,而arKey“恰好”是Bucket的最后一个元素,于是就可以使用arKey来访问key了。这种手法在内存管理例程中最为常见,当分配内存时,实际上是分配了比指定大小要大的内存,多出的上半部分通常被称为cookie,它存储了这块内存的信息,比如块大小、上一块指针、下一块指针等,baidu的Transmit程序就使用了这种方法。不用指针管理key,是为了减少一次emalloc操作,同时也可以提高Cache命中率。另一个必需的理由是,key绝大部分情况下是固定不变的,不会因为key变长了而导致重新分配整个Bucket。这同时也解释了为什么不把value也一起作为数组分配了——因为value是可变的。

  IS_STRING对应value.str

先看结构体_zval_struct,它的成员中value存储变量的值,type存储变量的类型,refcount__gc和is_ref__gc是变量引用相关的标记,先忽略;
而具体存储变量值的结构体_zvalue_value如何存储一个变量的值呢?根据变量的类型进行不同方式的存储,如下:
a. 变量类型为boolean(ZVAL_BOOL), integer(ZVAL_LONG), resource(ZVAL_RESOURCE)
zval中的type存储变量类型(IS_BOOL, IS_LONG, IS_RESOURCE),zvalue_value中的lval存储变量值
b. 变量类型为float(ZVAL_DOUBLE)
zval中的type存储变量类型(IS_DOUBLE),zvalue_value中的dval存储变量值
c. 变量类型为null(ZVAL_NULL)
zval中的type存储变量类型,不需要存储值
d. 变量类型为字符串
zval中的type存储变量类型(IS_STRING),zvalue_value中的结构体str存储字符串值和字符串长度
e. 变量类型为数组
zval中的type存储变量类型,zvalue_value中的*ht将指向一个哈希表,而这个哈希表里则存储数组的值
f. 变量类型为对象
zval中的type存储变量类型(IS_OBJECT),zvalue_value中的obj用于存储其值

1.2.2 PHP数组关于HashTable还有一个疑问没有回答,就是nNextFreeElement是干什么的?不同于一般的散列,Zend的HashTable允许用户直接指定hash值,而忽略key,甚至可以不指定key。同时,HashTable也支持append操作,用户连hash值也不用指定,只需要提供value,此时,Zend就用nNextFreeElement作为hash,之后将nNextFreeElement递增。HashTable的这种行为看起来很奇怪,因为这将无法按key访问value,已经完全不是个散列了。理解问题的关键在于,PHP数组就是使用HashTable实现的——关联数组使用正常的k-v映射将元素加入HashTable,其key为用户指定的字符串;非关联数组则直接使用数组下标作为hash值,不存在key;而当在一个数组中混合使用关联和非关联时,或者使用array_push操作时,就需要用nNextFreeElement了。再来看value,PHP数组的value直接使用了zval这个通用结构,pData指向的是zval*,按照上一节的介绍,这个zval*将直接存储在pDataPtr里。由于直接使用了zval,数组的元素可以是任意PHP类型。数组的遍历操作,即foreach、each等,是通过HashTable的双向链表来进行的,pInternalPointer作为游标记录了当前位置。

  IS_ARRAY对应value.ht

以上对于变量类型为数组时,数组值是使用内核态的哈希表存储的,那么PHP内核态的哈希表到底是个什么东东?

1.2.3 变量符号表除了数组,HashTable还被用来存储许多其他数据,比如,PHP函数、变量符号、加载的模块、类成员等。一个变量符号表就相当于一个关联数组,其key是变量名,value是zval*。在任一时刻PHP代码都可以看见两个变量符号表——symbol_table和active_symbol_table——前者用于存储全局变量,称为全局符号表;后者是个指针,指向当前活动的变量符号表,通常情况下就是全局符号表。但是,当每次进入一个PHP函数时,Zend都会创建函数局部的变量符号表,并将active_symbol_table指向局部符号表。Zend总是使用active_symbol_table来访问变量,这样就实现了局部变量的作用域控制。但如果在函数局部访问标记为global的变量,Zend会进行特殊处理——在active_symbol_table中创建symbol_table中同名变量的引用,如果symbol_table中没有同名变量则会先创建。

  IS_OBJECT对应value.obj

  1. PHP内核态的哈希表

    / Zend/zend_hash.htypedef struct bucket { ulong h; / Used for numeric indexing / uint nKeyLength; void pData; void pDataPtr; struct bucket pListNext; struct bucket pListLast; struct bucket pNext; struct bucket pLast; const char arKey; } Bucket; typedef struct _hashtable { uint nTableSize; uint nTableMask; uint nNumOfElements; ulong nNextFreeElement; Bucket pInternalPointer; / Used for element traversal / Bucket pListHead; Bucket pListTail; Bucket **arBuckets; dtor_func_t pDestructor; zend_bool persistent; unsigned char nApplyCount; zend_bool bApplyProtection; #if ZEND_DEBUG int inconsistent; #endif } HashTable;

1.3 内存和文件程序拥有的资源一般包括内存和文件,对于通常的程序,这些资源是面向进程的,当进程结束后,操作系统或C库会自动回收那些我们没有显式释放的资源。但是,PHP程序有其特殊性,它是基于页面的,一个页面运行时同样也会申请内存或文件这样的资源,然而当页面运行结束后,操作系统或C库也许不会知道需要进行资源回收。比如,我们将php作为模块编译到apache里,并且以prefork或worker模式运行apache。这种情况下apache进程或线程是复用的,php页面分配的内存将永驻内存直到出core。为了解决这种问题,Zend提供了一套内存分配API,它们的作用和C中相应函数一样,不同的是这些函数从Zend自己的内存池中分配内存,并且它们可以实现基于页面的自动回收。在我们的模块中,为页面分配的内存应该使用这些API,而不是C例程,否则Zend会在页面结束时尝试efree掉我们的内存,其结果通常就是crush。emallocestrndup另外,Zend还提供了一组形如VCWD_xxx的宏用于替代C库和操作系统相应的文件API,这些宏能够支持PHP的虚拟工作目录,在模块代码中应该总是使用它们。宏的具体定义参见PHP源代码”TSRM/tsrm_virtual_cwd.h”。可能你会注意到,所有那些宏中并没有提供close操作,这是因为close的对象是已打开的资源,不涉及到文件路径,因此可以直接使用C或操作系统例程;同理,read/write之类的操作也是直接使用C或操作系统的例程。

  IS_BOOL对应value.lval.

首先在理解哈希表时,先不要想它和PHP数组,变量符号表等的关系。先集中精神理解哈希表本身。上面代码里的HashTable和bucket实际上是为了表示多个有关联的元素,
其中一个bucket代表一个元素,它的*pListNext和*pListLast分别指向它的下一个和上一个bucket元素,所以这些bucket实际上是一个双向链表。而bucket元素具体的值存放在了由*pData指向的一块内存中,元素名称在保存在*arKey中;
HashTable中的*pListHead和*pListTail分别指向bucket元素构成的双向链表的头和尾,arBuckets则是一个数组,数组的key是一个哈希值(bucket元素名称的hash值),数组的value是双向链表中一个bucket元素的地址指针,arBuckets保存了所有的双向链表中元素的地址指针。
因为有了arBuckets,便能够快速的根据一个元素的名称检索到对应的bucket元素。

  IS_RESOURCE对应value.lval

以上为PHP内核态哈希表的简单介绍,也是核心功能介绍。

  根据这个表格可以发现两个有意思的地方:首先是PHP的数组其实就是一个HashTable,这就解释了为什么PHP能够支持关联数组了;其次,Resource就是一个long值,它里面存放的通常是个指针、一个内部数组的index或者其它什么只有创建者自己才知道的东西,可以将其视作一个handle

  1. 用户态的数组在内核态由哈希表存储
    一个数组是由多个key->value的元素构成,而哈希表正可以表示这个元素构成。比如,要想一个数组push一个元素,PHP内核先为此数组元素申请一块bucket内存,将数组元素的key进行哈希计算后得到一个哈希值,再操作HashTable中的*pListHead,和Bucket中的pListNext,pListLast。

  2. 哈希表是PHP内核的核心
    哈希表作用巨大,比如:
    a. 数组由哈希表实现
    b. 用户态的php脚本里出现的所有全局变量和所有局部变量在内核态也是使用哈希表来组织到一起
    当内核检索某个变量时,通过对变量名的哈希值到哈希表的arBuckets去找到对应的Bucket。

    //Zend/zend_globals.hstruct _zend_executor_globals { ... HashTable active_symbol_table; HashTable symbol_table; / main symbol table */ ...}

  1.1.1 引用计数

active_symbol_table指向当前局部变量的哈希表;而symbol_table则是全局变量的哈希表

  引用计数在垃圾收集、内存池以及字符串等地方应用广泛,Zend就实现了典型的引用计数。多个PHP变量可以通过引用计数机制来共享同一份zval,zval中剩余的两个成员is_ref和refcount就用来支持这种共享。

  很明显,refcount用于计数,当增减引用时,这个值也相应的递增和递减,一旦减到零,Zend就会回收该zval。

  那么is_ref呢?

  1.1.2 zval状态

  在PHP中,变量有两种——引用和非引用的,它们在Zend中都是采用引用计数的方式存储的。对于非引用型变量,要求变量间互不相干,修改一个变量时,不能影响到其他变量,采用Copy-On-Write机制即可解决这种冲突——当试图写入一个变量时,Zend若发现该变量指向的zval被多个变量共享,则为其复制一份refcount为1的zval,并递减原zval的refcount,这个过程称为“zval分离”。然而,对于引用型变量,其要求和非引用型相反,引用赋值的变量间必须是捆绑的,修改一个变量就修改了所有捆绑变量。

  可见,有必要指出当前zval的状态,以分别应对这两种情况,is_ref就是这个目的,它指出了当前所有指向该zval的变量是否是采用引用赋值的——要么全是引用,要么全不是。此时再修改一个变量,只有当发现其zval的is_ref为0,即非引用时,Zend才会执行Copy-On-Write。

  1.1.3 zval状态切换

  当在一个zval上进行的所有赋值操作都是引用或者都是非引用时,一个is_ref就足够应付了。然而,世界总不会那么美好,PHP无法对用户进行这种限制,当我们混合使用引用和非引用赋值时,就必须要进行特别处理了。

  情况I、看如下PHP代码:

  全过程如下所示:

  这段代码的前三句将把a、b和c指向一个zval,其is_ref=1, refcount=3;第四句是个非引用赋值,通常情况下只需要增加引用计数即可,然而目标zval属于引用变量,单纯的增加引用计数显然是错误的, Zend的解决办法是为d单独生成一份zval副本。

  全过程如下所示:

图片 1

1.1.1 参数传递

  PHP函数参数的传递和变量赋值是一样的,非引用传递相当于非引用赋值,引用传递相当于引用赋值,并且也有可能会导致执行zval状态切换。这在后面还将提到。

  1.2 HashTable结构

  HashTable是Zend引擎中最重要、使用最广泛的数据结构,它被用来存储几乎所有的东西。

  1.1.1 数据结构

  HashTable数据结构定义如下:
复制代码 代码如下:
typedef struct bucket {
ulong h; // 存放hash
uint nKeyLength;
void *pData; // 指向value,是用户数据的副本
void *pDataPtr;
struct bucket *pListNext; // pListNext和pListLast组成
struct bucket *pListLast; // 整个HashTable的双链表
struct bucket *pNext; // pNext和pLast用于组成某个hash对应
struct bucket *pLast; // 的双链表
char arKey[1]; // key
} Bucket;
typedef struct _hashtable {
uint nTableSize;
uint nTableMask;
uint nNumOfElements;
ulong nNextFreeElement;
Bucket *pInternalPointer; /* Used for element traversal */
Bucket *pListHead;
Bucket *pListTail;
Bucket **arBuckets; // hash数组
dtor_func_t pDestructor; // HashTable初始化时指定,销毁Bucket时调用
zend_bool persistent; // 是否采用C的内存分配例程
unsigned char nApplyCount;
zend_bool bApplyProtection;
#if ZEND_DEBUG
int inconsistent;
#endif
} HashTable;

总的来说,Zend的HashTable是一种链表散列,同时也为线性遍历进行了优化,图示如下:

图片 2

HashTable中包含两种数据结构,一个链表散列和一个双向链表,前者用于进行快速键-值查询,后者方便线性遍历和排序,一个Bucket同时存在于这两个数据结构中。
  关于该数据结构的几点解释:
  l 链表散列中为什么使用双向链表?
  一般的链表散列只需要按key进行操作,只需要单链表就够了。但是,Zend有时需要从链表散列中删除给定的Bucket,使用双链表可以非常高效的实现。
  l nTableMask是干什么的?
  这个值用于hash值到arBuckets数组下标的转换。当初始化一个HashTable,Zend首先为arBuckets数组分配nTableSize大小的内存,nTableSize取不小于用户指定大小的最小的2^n,即二进制的10*。nTableMask = nTableSize – 1,即二进制的01*,此时h & nTableMask就恰好落在 [0, nTableSize – 1] 里,Zend就以其为index来访问arBuckets数组。
  l pDataPtr是干什么的?
  通常情况下,当用户插入一个键值对时,Zend会将value复制一份,并将pData指向value副本。复制操作需要调用Zend内部例程 emalloc来分配内存,这是个非常耗时的操作,并且会消耗比value大的一块内存(多出的内存用于存放cookie),如果value很小的话,将会造成较大的浪费。考虑到HashTable多用于存放指针值,于是Zend引入pDataPtr,当value小到和指针一样长时,Zend就直接将其复制到pDataPtr里,并且将pData指向pDataPtr。这就避免了emalloc操作,同时也有利于提高Cache命中率。
  arKey大小为什么只有1?为什么不使用指针管理key?
  arKey是存放key的数组,但其大小却只有1,并不足以放下key。在HashTable的初始化函数里可以找到如下代码:
  1p = (Bucket *) pemalloc(sizeof(Bucket) - 1 + nKeyLength, ht->persistent);
  可见,Zend为一个Bucket分配了一块足够放下自己和key的内存,
  l 上半部分是Bucket,下半部分是key,而arKey“恰好”是Bucket的最后一个元素,于是就可以使用arKey来访问key了。这种手法在内存管理例程中最为常见,当分配内存时,实际上是分配了比指定大小要大的内存,多出的上半部分通常被称为cookie,它存储了这块内存的信息,比如块大小、上一块指针、下一块指针等,baidu的Transmit程序就使用了这种方法。
  不用指针管理key,是为了减少一次emalloc操作,同时也可以提高Cache命中率。另一个必需的理由是,key绝大部分情况下是固定不变的,不会因为key变长了而导致重新分配整个Bucket。这同时也解释了为什么不把value也一起作为数组分配了——因为value是可变的。
  1.2.2 PHP数组
  关于HashTable还有一个疑问没有回答,就是nNextFreeElement是干什么的?
  不同于一般的散列,Zend的HashTable允许用户直接指定hash值,而忽略key,甚至可以不指定key(此时,nKeyLength为0)。同时,HashTable也支持append操作,用户连hash值也不用指定,只需要提供value,此时,Zend就用nNextFreeElement作为hash,之后将nNextFreeElement递增。
  HashTable的这种行为看起来很奇怪,因为这将无法按key访问value,已经完全不是个散列了。理解问题的关键在于,PHP数组就是使用HashTable实现的——关联数组使用正常的k-v映射将元素加入HashTable,其key为用户指定的字符串;非关联数组则直接使用数组下标作为hash值,不存在key;而当在一个数组中混合使用关联和非关联时,或者使用array_push操作时,就需要用nNextFreeElement了。
  再来看value,PHP数组的value直接使用了zval这个通用结构,pData指向的是zval*,按照上一节的介绍,这个zval*将直接存储在pDataPtr里。由于直接使用了zval,数组的元素可以是任意PHP类型。
  数组的遍历操作,即foreach、each等,是通过HashTable的双向链表来进行的,pInternalPointer作为游标记录了当前位置。
  1.2.3 变量符号表
  除了数组,HashTable还被用来存储许多其他数据,比如,PHP函数、变量符号、加载的模块、类成员等。
  一个变量符号表就相当于一个关联数组,其key是变量名(可见,使用很长的变量名并不是个好主意),value是zval*。
  在任一时刻PHP代码都可以看见两个变量符号表——symbol_table和active_symbol_table——前者用于存储全局变量,称为全局符号表;后者是个指针,指向当前活动的变量符号表,通常情况下就是全局符号表。但是,当每次进入一个PHP函数时(此处指的是用户使用PHP代码创建的函数),Zend都会创建函数局部的变量符号表,并将active_symbol_table指向局部符号表。Zend总是使用active_symbol_table来访问变量,这样就实现了局部变量的作用域控制。
  但如果在函数局部访问标记为global的变量,Zend会进行特殊处理——在active_symbol_table中创建symbol_table中同名变量的引用,如果symbol_table中没有同名变量则会先创建。
  1.3 内存和文件
  程序拥有的资源一般包括内存和文件,对于通常的程序,这些资源是面向进程的,当进程结束后,操作系统或C库会自动回收那些我们没有显式释放的资源。
  但是,PHP程序有其特殊性,它是基于页面的,一个页面运行时同样也会申请内存或文件这样的资源,然而当页面运行结束后,操作系统或C库也许不会知道需要进行资源回收。比如,我们将php作为模块编译到apache里,并且以prefork或worker模式运行apache。这种情况下apache进程或线程是复用的,php页面分配的内存将永驻内存直到出core。
  为了解决这种问题,Zend提供了一套内存分配API,它们的作用和C中相应函数一样,不同的是这些函数从Zend自己的内存池中分配内存,并且它们可以实现基于页面的自动回收。在我们的模块中,为页面分配的内存应该使用这些API,而不是C例程,否则Zend会在页面结束时尝试efree掉我们的内存,其结果通常就是crush。
  emalloc()
  efree()
  estrdup()
  estrndup()
  ecalloc()
  erealloc()
  另外,Zend还提供了一组形如VCWD_xxx的宏用于替代C库和操作系统相应的文件API,这些宏能够支持PHP的虚拟工作目录,在模块代码中应该总是使用它们。宏的具体定义参见PHP源代码”TSRM/tsrm_virtual_cwd.h”。可能你会注意到,所有那些宏中并没有提供close操作,这是因为close的对象是已打开的资源,不涉及到文件路径,因此可以直接使用C或操作系统例程;同理,read/write之类的操作也是直接使用C或操作系统的例程。

本文由10bet手机官网发布于web前端,转载请注明出处:基础知识,PHP源码分析

上一篇:深入解析php之sphinx,学习笔记整理 下一篇:PHP获取MAC地址的函数代码
猜你喜欢
热门排行
精彩图文