go中 字符串 以 UTF- 8 存储,len()返回 字节 数而非字符数,如“你好”字节数为 6,字符数为 2;应使用 utf8.RuneCountInString 或 []rune 转换获取真实字符数;访问字符时需转为 rune 切片 避免索引错误;遍历推荐for range,可正确处理多字节字符并获取字节位置与 rune 值。

在 golang 中处理字符串长度与索引时,需要特别注意字符 编码 和字节 与字符的 区别 。Go 语言 中的字符串是以 UTF-8编码 存储的,这意味着一个字符可能占用多个字节。直接使用索引或 len()函数可能会导致不符合预期的结果。
理解字符串的字节与字符 区别
在 Go 中,len() 函数返回的是字符串的字节数,而不是字符数。例如,中文字符在 UTF- 8 中通常占 3 个字节:
示例:
str := " 你好 "fmt.Println(len(str)) // 输出 6
虽然只有两个汉字,但因为每个汉字占 3 个字节,所以总长度是 6。如果直接通过索引访问 str[0],得到的是第一个字节,而不是完整的字符。
正确获取字符数量的方法
要获得真正的“字符”数量(即 Unicode 码点的数量),应使用 utf8.RuneCountInString() 或将字符串转换为 rune 切片:
立即学习“go 语言免费学习笔记(深入)”;
runeCount := utf8.RuneCountInString(" 你好 ") // 结果为 2-
runeSlice := []rune(" 你好 ")fmt.Println(len(runeSlice)) // 输出 2
使用 []rune(str) 可以把字符串按 Unicode 字符拆分,这样每个元素对应一个完整字符,适合做精确的字符操作。
安全地访问特定位置的字符
若要访问第 n 个字符,不要用 str[n],而应转为 rune 切片后再索引:
str := "Hello 世界 "Chars := []rune(str)fmt.printf("%cn", chars[5]) // 输出 '世'
这样可以避免因多字节字符导致的乱码或截断问题。
遍历字符串推荐使用 for range
使用 for range 遍历字符串会自动按 Unicode 字符处理,每次迭代得到的是字符的位置(字节索引)和 rune 值:
for i, r := range "Hello 世界 " {
fmt.Printf(" 位置 %d: %cn", i, r)}
这种方式既能正确解码多字节字符,又能获取每个字符在原始字符串中的起始字节位置。
基本上就这些。关键是要区分“字节长度”和“字符长度”,避免误用索引造成数据错误。处理国际化文本时,始终优先考虑 rune 和 UTF- 8 相关 工具。不复杂但容易忽略。