解析 XML 数据

Extensible Markup Language（XML）是一组将文档编码成机器可读形式的规则，也是一种在网络上共享数据的普遍格式。频繁更新内容的网站，比如新闻网站或者博客，经常会提供 XML 提要（XML feed）来使得外部程序可以跟上内容的变化。下载与解析 XML 数据是网络连接相关 app 的一个常见功能。这一课会介绍如何解析 XML 文档并使用它们的数据。

示例：NetworkUsage.zip

我们推荐，它是 Android 上一个高效且可维护的解析 XML 的方法。 Android 上有这个接口的两种实现方式：

KXmlParser，通过得到。
，通过 Xml.newPullParser() 得到。

两个选择都是比较好的。下面的示例中是通过 Xml.newPullParser() 得到 ExpatPullParser。

分析 Feed

解析一个 feed 的第一步是决定我们需要获取的字段。这样解析器便去抽取出那些需要的字段而忽视其他的字段。

下面的XML片段是章节概览示例 app 中解析的 Feed 的片段。上每一个帖子在 feed 中以包含几个嵌套的子标签的 entry 标签的形式出现。

示例 app 从 entry 标签与它的子标签 title，link 和 summary 中提取数据.

public class StackOverflowXmlParser {
    // We don't use namespaces
    private static final String ns = null;
    public List parse(InputStream in) throws XmlPullParserException, IOException {
        try {
            XmlPullParser parser = Xml.newPullParser();
            parser.setFeature(XmlPullParser.FEATURE_PROCESS_NAMESPACES, false);
            parser.setInput(in, null);
            parser.nextTag();
            return readFeed(parser);
        } finally {
            in.close();
        }
    }
 ...
}

读取Feed

readFeed() 方法实际的工作是处理 feed 的内容。它寻找一个 “entry” 的标签作为递归处理整个 feed 的起点。readFeed() 方法会跳过不是 entry 的标签。当整个 feed 都被递归处理后，readFeed() 会返回一个从 feed 中提取的包含了 entry 标签内容（包括里面的数据成员）的。然后这个 List 成为 parser 的返回值。

解析 XML feed 的步骤如下：

正如在上面所说的，判断出应用中想要的标签。这个例子抽取了 entry 标签与它的内部标签 title，link 和 summary 中的数据。
创建下面的方法:

为每一个我们想要获取的标签创建一个 “read” 方法。例如 readEntry()，readTitle() 等等。解析器从输入流中读取标签。当读取到 entry，title，link 或者 summary 标签时，它会为那些标签调用相应的方法。否则，跳过这个标签。
为每一个不同的标签创建提取数据的方法，和使 parser 继续解析下一个标签的方法。例如：
- 对于 title 和 summary 标签，解析器调用 readText()。这个方法通过调用 parser.getText() 来获取数据。
- 对于 link 标签，解析器先判断这个 link 是否是我们想要的类型。然后再使用 parser.getAttributeValue() 来获取 link 标签的值。
- 对于 entry 标签，解析器调用 readEntry()。这个方法解析 entry 的内部标签并返回一个带有 title，link 和 summary 数据成员的 Entry 对象。
一个递归的辅助方法：skip()。关于这部分的讨论，请看下面一部分内容：跳过不关心的标签。

public static class Entry {
    public final String title;
    public final String link;
    public final String summary;
    private Entry(String title, String summary, String link) {
        this.title = title;
        this.summary = summary;
        this.link = link;
    }
}
// Parses the contents of an entry. If it encounters a title, summary, or link tag, hands them off
// to their respective "read" methods for processing. Otherwise, skips the tag.
    parser.require(XmlPullParser.START_TAG, ns, "entry");
    String title = null;
    String summary = null;
    while (parser.next() != XmlPullParser.END_TAG) {
        if (parser.getEventType() != XmlPullParser.START_TAG) {
            continue;
        }
        String name = parser.getName();
        if (name.equals("title")) {
            title = readTitle(parser);
        } else if (name.equals("summary")) {
            summary = readSummary(parser);
        } else if (name.equals("link")) {
            link = readLink(parser);
        } else {
            skip(parser);
        }
    }
    return new Entry(title, summary, link);
}
// Processes title tags in the feed.
private String readTitle(XmlPullParser parser) throws IOException, XmlPullParserException {
    parser.require(XmlPullParser.START_TAG, ns, "title");
    String title = readText(parser);
    parser.require(XmlPullParser.END_TAG, ns, "title");
    return title;
}
// Processes link tags in the feed.
private String readLink(XmlPullParser parser) throws IOException, XmlPullParserException {
    String link = "";
    parser.require(XmlPullParser.START_TAG, ns, "link");
    String tag = parser.getName();
    String relType = parser.getAttributeValue(null, "rel");
    if (tag.equals("link")) {
        if (relType.equals("alternate")){
            link = parser.getAttributeValue(null, "href");
            parser.nextTag();
        }
    }
    parser.require(XmlPullParser.END_TAG, ns, "link");
    return link;
}
// Processes summary tags in the feed.
private String readSummary(XmlPullParser parser) throws IOException, XmlPullParserException {
    parser.require(XmlPullParser.START_TAG, ns, "summary");
    String summary = readText(parser);
    parser.require(XmlPullParser.END_TAG, ns, "summary");
    return summary;
}
// For the tags title and summary, extracts their text values.
private String readText(XmlPullParser parser) throws IOException, XmlPullParserException {
    if (parser.next() == XmlPullParser.TEXT) {
        result = parser.getText();
        parser.nextTag();
    }
    return result;
}
  ...
}

跳过不关心的标签

上面描述的 XML 解析步骤中有一步就是跳过不关心的标签，下面演示解析器的 skip() 方法:

下面解释这个方法如何工作:

如果当前事件不是一个 START_TAG，抛出异常。
它消耗掉 START_TAG 以及接下来的所有内容，包括与开始标签配对的。
为了保证方法在遇到正确的 END_TAG 时停止，而不是在最开始的 START_TAG 后面的第一个标签，方法随时记录嵌套深度。

因此如果目前的标签有子标签, 那么直到解析器已经处理了所有位于 START_TAG 与对应的 END_TAG 之间的事件之前，depth 的值不会为 0。例如，看解析器如何跳过 <author> 标签，它有2个子标签，<name> 与 <uri>：

第一次循环, 在 <author> 之后 parser 遇到的第一个标签是 <name> 标签的 START_TAG。depth 值变为2。
第二次循环, parser 遇到的下一个标签是 END_TAG </name>。depth 值变为1。
第三次循环, parser 遇到的下一个标签是 START_TAG <uri>。depth 值变为2。
第四次循环, parser 遇到的下一个标签是 END_TAG </uri>。depth 值变为1。
第五次同时也是最后一次循环, parser 遇到的下一个标签是 END_TAG </author>。 depth 值变为0。表明成功跳过了 <author> 标签。

示例程序是在中获取与解析 XML 数据的。这会在主 UI 线程之外进行处理。当处理完毕后，app 会更新 main activity（NetworkActivity）的 UI。

在下面示例代码中，loadPage() 方法做了下面的事情：

初始化一个带有 URL 地址的字符串变量，用来订阅 XML feed。
如果用户设置与网络连接都允许，会调用 new DownloadXmlTask().execute(url)。这会初始化一个新的 DownloadXmlTask 对象（AsyncTask 的子类）并且开始执行它的方法，这个方法会下载并解析 feed，并返回展示在 UI 上的字符串。

public class NetworkActivity extends Activity {
    public static final String WIFI = "Wi-Fi";
    public static final String ANY = "Any";
    private static final String URL = "http://stackoverflow.com/feeds/tag?tagnames=android&sort=newest";
    // Whether there is a Wi-Fi connection.
    private static boolean wifiConnected = false;
    // Whether there is a mobile connection.
    private static boolean mobileConnected = false;
    // Whether the display should be refreshed.
    public static boolean refreshDisplay = true;
    public static String sPref = null;
    ...
    // Uses AsyncTask to download the XML feed from stackoverflow.com.
    public void loadPage() {
        if((sPref.equals(ANY)) && (wifiConnected || mobileConnected)) {
            new DownloadXmlTask().execute(URL);
        }
        else if ((sPref.equals(WIFI)) && (wifiConnected)) {
            new DownloadXmlTask().execute(URL);
        } else {
            // show error
        }
    }

下面展示的是 AsyncTask 的子类，DownloadXmlTask，实现了的如下方法：

doInBackground() 执行 loadXmlFromNetwork() 方法。它以 feed 的 URL 作为参数。loadXmlFromNetwork() 获取并处理 feed。当它完成时，返回一个结果字符串。
接收返回的字符串并将其展示在UI上。

下面是 DownloadXmlTask 中调用的 loadXmlFromNetwork() 方法做的事情：

实例化一个 StackOverflowXmlParser。它同样创建一个 Entry 对象（entries）的 List，和 title，url，summary，来保存从 XML feed 中提取的值。
调用 downloadUrl()，它会获取 feed, 并将其作为 InputStream 返回。
使用 StackOverflowXmlParser 解析。StackOverflowXmlParser 用从 feed 中获取的数据填充 entries 的 List。
处理 entries 的 List，并将 feed 数据与 HTML 标记结合起来。
返回一个 HTML 字符串，AsyncTask 的方法会将其展示在 main activity 的 UI 上。

解析XML数据

解析 XML 数据

分析 Feed

读取Feed

跳过不关心的标签