开发者问题收集

如何在 PHP 中解析和处理 HTML/XML?

2010-08-26
477849

如何解析 HTML/XML 并从中提取信息?

3个回答

本机 XML 扩展

我更喜欢使用 本机 XML 扩展 之一,因为它们与 PHP 捆绑在一起,通常比所有第三方库都更快,并且让我能够对标记进行所需的所有控制。

DOM

The DOM extension allows you to operate on XML documents through the DOM API with PHP 5. It is an implementation of the W3C's Document Object Model Core Level 3, a platform- and language-neutral interface that allows programs and scripts to dynamically access and update the content, structure and style of documents.

DOM 能够解析和修改现实世界(损坏的)HTML,并且可以执行 XPath 查询 。它基于 libxml

使用 DOM 提高效率需要花费一些时间,但在我看来,这段时间是值得的。由于 DOM 是与语言无关的接口,您会发现许多语言都有实现,因此如果您需要更改编程语言,那么您很可能已经知道如何使用该语言的 DOM API。

如何使用 DOM 扩展已在 StackOverflow 上 广泛介绍 ,因此如果您选择使用它,您可以确定您遇到的大多数问题都可以通过搜索/浏览 Stack Overflow 来解决。

其他答案中提供了 基本使用示例 一般概念概述

XMLReader

The XMLReader extension is an XML pull parser. The reader acts as a cursor going forward on the document stream and stopping at each node on the way.

XMLReader 与 DOM 一样,基于 libxml。我不知道如何触发 HTML 解析器模块,因此使用 XMLReader 解析损坏的 HTML 可能不如使用 DOM 那样强大,因为您可以明确告诉它使用 libxml 的 HTML 解析器模块。

另一个答案中提供了 基本用法示例

XML 解析器

This extension lets you create XML parsers and then define handlers for different XML events. Each XML parser also has a few parameters you can adjust.

XML 解析器库也基于 libxml,并实现了 SAX 样式的 XML 推送解析器。与 DOM 或 SimpleXML 相比,它可能是内存管理的更好选择,但使用起来比 XMLReader 实现的拉解析器更困难。

SimpleXml

The SimpleXML extension provides a very simple and easily usable toolset to convert XML to an object that can be processed with normal property selectors and array iterators.

当您知道 HTML 是有效的 XHTML 时,SimpleXML 是一个选项。如果您需要解析损坏的 HTML,请不要考虑 SimpleXml,因为它会阻塞。

有一个 基本使用示例 可用,并且 PHP 手册中有很多其他示例


第三方库(基于 libxml)

如果您更喜欢使用第三方库,我建议使用实际上使用 DOM / libxml 的库,而不是字符串解析。

FluentDom

FluentDOM provides a jQuery-like fluent XML interface for the DOMDocument in PHP. Selectors are written in XPath or CSS (using a CSS to XPath converter). Current versions extend the DOM implementing standard interfaces and add features from the DOM Living Standard. FluentDOM can load formats like JSON, CSV, JsonML, RabbitFish and others. Can be installed via Composer.

HtmlPageDom

Wa72\HtmlPageDom is a PHP library for easy manipulation of HTML documents using DOM. It requires DomCrawler from Symfony2 components for traversing the DOM tree and extends it by adding methods for manipulating the DOM tree of HTML documents.

phpQuery

phpQuery is a server-side, chainable, CSS3 selector driven Document Object Model (DOM) API based on jQuery JavaScript Library. The library is written in PHP5 and provides additional Command Line Interface (CLI).

这被描述为“废弃软件和漏洞:使用风险自负”,但似乎维护得很少。

laminas-dom

The Laminas\Dom component (formerly Zend_DOM) provides tools for working with DOM documents and structures. Currently, we offer Laminas\Dom\Query , which provides a unified interface for querying DOM documents utilizing both XPath and CSS selectors.

This package is considered feature-complete, and is now in security-only maintenance mode.

fDOMDocument

fDOMDocument extends the standard DOM to use exceptions at all occasions of errors instead of PHP warnings or notices. They also add various custom methods and shortcuts for convenience and to simplify the usage of DOM.

sabre/xml

sabre/xml is a library that wraps and extends the XMLReader and XMLWriter classes to create a simple "xml to object/array" mapping system and design pattern. Writing and reading XML is single-pass and can therefore be fast and require low memory on large xml files.

FluidXML

FluidXML is a PHP library for manipulating XML with a concise and fluent API. It leverages XPath and the fluent programming pattern to be fun and effective.


第三方(不是基于 libxml)

基于 DOM/libxml 构建的好处是,由于您基于本机扩展,因此可以获得良好的开箱即用性能。但是,并非所有第三方库都采用这种方式。下面列出了其中一些

PHP 简单 HTML DOM 解析器

  • An HTML DOM parser written in PHP5+ lets you manipulate HTML in a very easy way!
  • Require PHP 5+.
  • Supports invalid HTML.
  • Find tags on an HTML page with selectors just like jQuery.
  • Extract contents from HTML in a single line.

我通常不推荐此解析器。代码库很糟糕,解析器本身相当慢且占用大量内存。并非所有 jQuery 选择器(例如 子选择器 )都可行。任何基于 libxml 的库都应该能轻松超越它。

PHP Html 解析器

PHPHtmlParser is a simple, flexible, html parser which allows you to select tags using any css selector, like jQuery. The goal is to assiste in the development of tools which require a quick, easy way to scrape html, whether it's valid or not! This project was original supported by sunra/php-simple-html-dom-parser but the support seems to have stopped so this project is my adaptation of his previous work.

同样,我不推荐这个解析器。它相当慢,CPU 使用率很高。也没有清除创建的 DOM 对象内存的功能。这些问题在嵌套循环中尤其严重。文档本身不准确且拼写错误,自 2016 年 4 月 14 日以来没有对修复的回应。


HTML 5

您可以使用上述内容解析 HTML5,但由于 HTML5 允许的标记, 可能会出现怪癖 。因此对于 HTML5,您可能需要考虑使用专用解析器。请注意,这些是用 PHP 编写的,因此与使用低级语言编译的扩展相比,性能较慢且内存使用量增加。

HTML5DomDocument

HTML5DOMDocument extends the native DOMDocument library. It fixes some bugs and adds some new functionality.

  • Preserves html entities (DOMDocument does not)
  • Preserves void tags (DOMDocument does not)
  • Allows inserting HTML code that moves the correct parts to their proper places (head elements are inserted in the head, body elements in the body)
  • Allows querying the DOM with CSS selectors (currently available: * , tagname , tagname#id , #id , tagname.classname , .classname , tagname.classname.classname2 , .classname.classname2 , tagname[attribute-selector] , [attribute-selector] , div, p , div p , div > p , div + p , and p ~ ul .)
  • Adds support for element->classList.
  • Adds support for element->innerHTML.
  • Adds support for element->outerHTML.

HTML5

HTML5 is a standards-compliant HTML5 parser and writer written entirely in PHP. It is stable and used in many production websites, and has well over five million downloads.

HTML5 provides the following features.

  • An HTML5 serializer
  • Support for PHP namespaces
  • Composer support
  • Event-based (SAX-like) parser
  • A DOM tree builder
  • Interoperability with QueryPath
  • Runs on PHP 5.3.0 or newer

正则表达式

最后也是 最不推荐的 ,您可以使用 正则表达式 从 HTML 中提取数据。一般情况下,不建议在 HTML 上使用正则表达式。

您在网络上找到的大多数用于匹配标记的代码片段都很脆弱。在大多数情况下,它们只适用于非常特殊的 HTML 片段。微小的标记更改(例如在某处添加空格,或在标签中添加或更改属性)如果编写不正确,可能会导致 RegEx 失败。在 HTML 上使用 RegEx 之前,您应该知道自己在做什么。

HTML 解析器已经知道 HTML 的语法规则。您必须为每个新编写的 RegEx 教授正则表达式。在某些情况下,RegEx 很好,但这实际上取决于您的用例。

您可以 编写更可靠的解析器 ,但当上述库已经存在并且在这方面做得更好时,使用正则表达式编写 完整且可靠 的自定义解析器是浪费时间。

另请参阅 以 Cthulhu 的方式解析 Html


书籍

如果您想花一些钱,请看

我与 PHP Architect 或作者没有任何关系。

Gordon
2010-08-26

尝试 简单 HTML DOM 解析器

  • 用 PHP 5+ 编写的 HTML DOM 解析器,可让您以非常轻松的方式操作 HTML!
  • 需要 PHP 5+。
  • 支持无效 HTML。
  • 使用选择器(如 jQuery)在 HTML 页面上查找标签。
  • 用一行从 HTML 中提取内容。
  • 下载

注意:顾名思义,它对于简单任务很有用。它使用正则表达式而不是 HTML 解析器,因此对于更复杂的任务来说速度会慢得多。其代码库的大部分编写于 2008 年,此后仅进行了一些小幅改进。它不遵循现代 PHP 编码标准,很难融入现代 PSR 兼容项目。

示例:

如何获取 HTML 元素:

// Create DOM from URL or file
$html = file_get_html('http://www.example.com/');

// Find all images
foreach($html->find('img') as $element)
       echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
       echo $element->href . '<br>';

如何修改 HTML 元素:

// Create DOM from string
$html = str_get_html('<div id="hello">Hello</div><div id="world">World</div>');

$html->find('div', 1)->class = 'bar';

$html->find('div[id=hello]', 0)->innertext = 'foo';

echo $html;

从 HTML 中提取内容:

// Dump contents (without tags) from HTML
echo file_get_html('http://www.google.com/')->plaintext;

抓取 Slashdot:

// Create DOM from URL
$html = file_get_html('http://slashdot.org/');

// Find all article blocks
foreach($html->find('div.article') as $article) {
    $item['title']     = $article->find('div.title', 0)->plaintext;
    $item['intro']    = $article->find('div.intro', 0)->plaintext;
    $item['details'] = $article->find('div.details', 0)->plaintext;
    $articles[] = $item;
}

print_r($articles);
Naveed
2010-08-26

只需使用 DOMDocument->loadHTML() 即可完成。libxml 的 HTML 解析算法非常好且快速,并且与普遍看法相反,它不会因格式错误的 HTML 而阻塞。

Edward Z. Yang
2008-11-26