字符和字符串

字符类型是基本数据类型,它是character的缩写。一个char保存一个Unicode字符:

因为Java在内存中总是使用Unicode表示字符,所以,一个英文字符和一个中文字符都用一个char类型表示,它们都占用两个字节。要显示一个字符的Unicode编码,只需将char类型直接赋值给int类型即可:

  1. int n1 = 'A'; // 字母“A”的Unicodde编码是65
  2. int n2 = '中'; // 汉字“中”的Unicode编码是20013

还可以直接用转义字符\u+Unicode编码来表示一个字符:

  1. // 注意是十六进制:
  2. char c3 = '\u0041'; // 'A',因为十六进制0041 = 十进制65
  3. char c4 = '\u4e2d'; // '中',因为十六进制4e2d = 十进制20013

字符串类型

char类型不同,字符串类型String是引用类型,我们用双引号"…"表示字符串。一个字符串可以存储0个到任意个字符:

  1. String s = ""; // 空字符串,包含0个字符
  2. String s1 = "A"; // 包含一个字符
  3. String s2 = "ABC"; // 包含3个字符
  4. String s3 = "中文 ABC"; // 包含6个字符,其中有一个空格

因为字符串使用双引号"…"表示开始和结束,那如果字符串本身恰好包含一个"字符怎么表示?例如,"abc"xyz",编译器就无法判断中间的引号究竟是字符串的一部分还是表示字符串结束。这个时候,我们需要借助转义字符\

    因为\是转义字符,所以,两个\表示一个\字符:

    常见的转义字符包括:

    • \" 表示字符"
    • \' 表示字符'
    • 表示字符\
    • \n 表示换行符
    • \r 表示回车符
    • \t 表示Tab
    • \u#### 表示一个Unicode编码的字符

    例如:

    1. String s = "ABC\n\u4e2d\u6587"; // 包含6个字符: A, B, C, 换行符, 中, 文

    字符串连接

    Java的编译器对字符串做了特殊照顾,可以使用+连接任意字符串和其他数据类型,这样极大地方便了字符串的处理。例如:

    如果用+连接字符串和其他数据类型,会将其他数据类型先自动转型为字符串,再连接:

    字符和字符串 - 图1

    1. String s = "first line \n"
    2. + "second line \n"
    3. + "end";

    从Java 13开始,字符串可以用"""…"""表示多行字符串(Text Blocks)了。举个例子:

    上述多行字符串实际上是5行,在最后一个DESC后面还有一个\n。如果我们不想在字符串末尾加一个\n,就需要这么写:

    1. String s = """
    2. SELECT * FROM
    3. users
    4. WHERE id > 100
    5. ORDER BY name DESC""";

    还需要注意到,多行字符串前面共同的空格会被去掉,即:

    1. String s = """
    2. ...........SELECT * FROM
    3. ...........WHERE id > 100
    4. ...........ORDER BY name DESC
    5. ...........""";

    .标注的空格都会被去掉。

    如果多行字符串的排版不规则,那么,去掉的空格就会变成这样:

    即总是以最短的行首空格为基准。

    最后,由于多行字符串是作为Java 13的预览特性(Preview Language Features)实现的,编译的时候,我们还需要给编译器加上参数:

    1. javac --source 13 --enable-preview Main.java

    不可变特性

    Java的字符串除了是一个引用类型外,还有个重要特点,就是字符串不可变。考察以下代码:

    字符和字符串 - 图2

    观察执行结果,难道字符串s变了吗?其实变的不是字符串,而是变量s的“指向”。

    执行时,JVM虚拟机先创建字符串"hello",然后,把字符串变量s指向它:

    1. s
    2. ┌───┬───────────┬───┐
    3. "hello"
    4. └───┴───────────┴───┘
    1. s ──────────────┐
    2. ┌───┬───────────┬───┬───────────┬───┐
    3. "hello" "world"
    4. └───┴───────────┴───┴───────────┴───┘

    原来的字符串"hello"还在,只是我们无法通过变量s访问它而已。因此,字符串的不可变是指字符串内容不可变。

    理解了引用类型的“指向”后,试解释下面的代码输出:

    空值null

    引用类型的变量可以指向一个空值null,它表示不存在,即该变量不指向任何对象。例如:

    1. String s1 = null; // s1是null
    2. String s2; // 没有赋初值值,s2也是null
    3. String s4 = ""; // s4指向空字符串,不是null

    注意要区分空值null和空字符串"",空字符串是一个有效的字符串对象,它不等于null

    请将一组int值视为字符的Unicode编码,然后将它们拼成一个字符串:

    字符和字符串 - 图3

    下载练习:Unicode值拼接字符串 (推荐使用快速下载)

    小结

    Java的字符类型char是基本类型,字符串类型String是引用类型;

    基本类型的变量是“持有”某个数值,引用类型的变量是“指向”某个对象;

    引用类型的变量可以是空值null

    要区分空值和空字符串""

    读后有收获可以支付宝请作者喝咖啡,读后有疑问请加微信群讨论