go中的数据结构切片-slice
1.部分基本类型
go中的类型与c的相似,常用类型有一个特例:byte类型,即字节类型,长度为,默认值是0;
1 bytes = [5]btye{'h', 'e', 'l', 'l', 'o'}
变量bytes的类型是[5]byte,一个由5个字节组成的数组。它的内存表示就是连起来的5个字节,就像C的数组。
1.1字符串
字符串在Go语言内存模型中用一个2字长(64位,32位内存布局方式下)的数据结构表示。它包含一个指向字符串数据存储地方的指针,和一个字符串长度数据如下图:
s是一个string类型的字符串,因为string类型不可变,对于多字符串共享同一个存储数据是安全的。切分操作str[i:j]
会得到一个新的2字长结构t,一个可能不同的但仍指向同一个字节序列(即上文说的存储数据)的指针和长度数据。所以字符串切分不涉及内存分配或复制操作,其效率等同于传递下标。
1.2数组
数组类型定义了长度和元素类型。如, [4]int
类型表示一个四个整数的数组,其长度是固定的,长度是数组类型的一部分( [4]int
和 [5]int
是完全不同的类型)。 数组可以以常规的索引方式访问,表达式 s[n]
访问数组的第 n 个元素。数组不需要显式的初始化;数组的零值是可以直接使用的,数组元素会自动初始化为其对应类型的零值。
1 var a [4]int 2 a[0] = 1 3 i := a[0] 4 // i == 1 5 // a[2] == 0, int 类型的零值
Go的数组是值语义。一个数组变量表示整个数组,它不是指向第一个元素的指针(不像 C 语言的数组)。 当一个数组变量被赋值或者被传递的时候,实际上会复制整个数组。 (为了避免复制数组,你可以传递一个指向数组的指针,但是数组指针并不是数组。) 可以将数组看作一个特殊的struct,结构的字段名对应数组的索引,同时成员的数目固定。
b := [2]string{"Penn", "Teller"} b := [...]string{"Penn", "Teller"}
这两种写法, b
都是对应 [2]string
类型。
2.切片slice
2.1结构
切片类型的写法是[]T
,T
是切片元素的类型。和数组不同的是,切片类型并没有给定固定的长度。切片的字面值和数组字面值很像,不过切片没有指定元素个数:
1 letters := []string{"a", "b", "c", "d"}
2 s := letters [:] //a slice referencing the storage of x 3 func make([]T, len, cap) []T //使用内置函数 make 创建
一个slice是一个数组某个部分的引用。在内存中它是一个包含三个域的结构体:指向slice中第一个元素的指针ptr,slice的长度数据len,以及slice的容量cap。长度是下标操作的上界,如x[i]中i必须小于长度。容量是分割操作的上界,如x[i:j]中j不能大于容量。slice在Go的运行时库中就是一个C语言动态数组的实现,在$GOROOT/src/pkg/runtime/runtime.h中定义:
struct Slice { // must not move anything byte* array; // actual data uintgo len; // number of elements uintgo cap; // allocated number of elements };
数组的slice会创建一份新的数据结构,包含一个指针,一个指针和一个容量数据。如同分割一个字符串,分割数组也不涉及复制操作,它只是新建了一个结构放置三个数据。如下图:
示例中,对[]int{2,3,5,7,11}
求值操作会创建一个包含五个值的数组,并设置x的属性来描述这个数组。分割表达式x[1:3]
不重新分配内存数据,只写了一个新的slice结构属性来引用相同的存储数据。上例中,长度为2–只有y[0]和y[1]是有效的索引,但是容量为4–y[0:4]是一个有效的分割表达式。
因为slice分割操作不需要分配内存,也没有通常被保存在堆中的slice头部,这种表示方法使slice操作和在C中传递指针、长度对一样廉价。
2.2扩容
其实slice在Go的运行时库中就是一个C语言动态数组的实现,要增加切片的容量必须创建一个新的、更大容量的切片,然后将原有切片的内容复制到新的切片。在对slice进行append等操作时,可能会造成slice的自动扩容。其扩容时的大小增长规则是:
- 如果新的大小是当前大小2倍以上,则大小增长为新大小
- 否则循环以下操作:如果当前大小小于1024,按每次2倍增长,否则每次按当前大小1/4增长。直到增长的大小超过或等于新大小。
下面的例子将切片 s
容量翻倍,先创建一个2倍 容量的新切片 t
,复制 s
的元素到 t
,然后将 t
赋值给 s
:
t := make([]byte, len(s), (cap(s)+1)*2) // +1 in case cap(s) == 0 for i := range s { t[i] = s[i] } s = t
循环中复制的操作可以由 copy 内置函数替代,返回复制元素的数目。此外, copy
函数可以正确处理源和目的切片有重叠的情况。
一个常见的操作是将数据追加到切片的尾部。必要的话会增加切片的容量,最后返回更新的切片:
func AppendByte(slice []byte, data ...byte) []byte { m := len(slice) n := m + len(data) if n > cap(slice) { // if necessary, reallocate // allocate double what's needed, for future growth. newSlice := make([]byte, (n+1)*2) copy(newSlice, slice) slice = newSlice } slice = slice[0:n] copy(slice[m:n], data) return slice }
Go提供了一个内置函数 append,也实现了这样的功能。
func append(s []T, x ...T) []T //append 函数将 x 追加到切片 s 的末尾,并且在必要的时候增加容量。 a := make([]int, 1) // a == []int{0} a = append(a, 1, 2, 3) // a == []int{0, 1, 2, 3}
如果是要将一个切片追加到另一个切片尾部,需要使用 ...
语法将第2个参数展开为参数列表。
a := []string{"John", "Paul"} b := []string{"George", "Ringo", "Pete"} a = append(a, b...) // equivalent to "append(a, b[0], b[1], b[2])" // a == []string{"John", "Paul", "George", "Ringo", "Pete"}
由于切片的零值 nil
用起来就像一个长度为零的切片,我们可以声明一个切片变量然后在循环 中向它追加数据:
// Filter returns a new slice holding only // the elements of s that satisfy fn() func Filter(s []int, fn func(int) bool) []int { var p []int // == nil for _, v := range s { if fn(v) { p = append(p, v) } } return p }
3.使用切片需要注意的陷阱
切片操作并不会复制底层的数组。整个数组将被保存在内存中,直到它不再被引用。 有时候可能会因为一个小的内存引用导致保存所有的数据。
如下, FindDigits
函数加载整个文件到内存,然后搜索第一个连续的数字,最后结果以切片方式返回。
var digitRegexp = regexp.MustCompile("[0-9]+") func FindDigits(filename string) []byte { b, _ := ioutil.ReadFile(filename) return digitRegexp.Find(b) }
这段代码的行为和描述类似,返回的 []byte
指向保存整个文件的数组。因为切片引用了原始的数组, 导致 GC 不能释放数组的空间;只用到少数几个字节却导致整个文件的内容都一直保存在内存里。要修复整个问题,可以将需要的数据复制到一个新的切片中:
func CopyDigits(filename string) []byte { b, _ := ioutil.ReadFile(filename) b = digitRegexp.Find(b) c := make([]byte, len(b)) copy(c, b) return c }
使用 append
实现一个更简洁的版本:
8 func CopyDigitRegexp(filename string) []byte { 7 b,_ := ioutil.ReadFile(filename) 6 b = digitRefexp.Find(b) 5 var c []intb 4 // for _,v := range b{ 3 c =append(c, b) 2 //} 1 return c 0 }
4.make和new
Go有两个数据结构创建函数:make和new,也是两种不同的内存分配机制。
make和new的基本的区别是new(T)
返回一个*T
,返回的是一个指针,指向分配的内存地址,该指针可以被隐式地消除引用)。而make(T, args)
返回一个普通的T。通常情况下,T内部有一些隐式的指针。所以new返回一个指向已清零内存的指针,而make返回一个T类型的结构。更详细的区别在后面内存分配的学习里研究。