语义化 HTML

一、为什么需要语义化

1.1 从视觉标记到含义标记

早期 Web 开发大量使用 <div> + CSS 类名来表达页面结构。这种做法在视觉层面可以正常工作，但丢失了一个关键维度——含义（Meaning）。浏览器、屏幕阅读器、搜索引擎爬虫在解析文档时，需要依赖标签本身携带的语义信息来理解内容的层级与角色。

当你写下 <nav> 而非 <div class="nav"> 时，你在向所有消费端宣告："这是一个导航区域"。这种声明不依赖样式表是否加载、不依赖 JavaScript 是否执行——它是文档结构本身的一部分。

1.2 语义化的三重收益

维度	具体收益
可访问性（Accessibility）	屏幕阅读器可直接跳转到 `<main>`、`<nav>` 等 Landmark，盲人用户导航效率提升 60%+
SEO	搜索引擎通过 `<article>`、`<h1>`-`<h6>` 层级理解内容主题，影响 Rich Snippet 展示
可维护性	语义标签即文档，新团队成员阅读 HTML 即可理解页面结构，无需反复对照 CSS

1.3 语义化不是"用对标签"那么简单

真正的语义化需要理解 HTML 规范中的 内容模型（Content Model）——每个元素允许嵌套什么、被谁嵌套、在什么上下文中合法。这是一套类型系统。

二、HTML5 内容模型详解

2.1 七大内容分类

HTML5 规范将元素分为七个重叠的类别：

Metadata Content    → <meta>, <link>, <title>, <style>, <script>
Flow Content        → 几乎所有 body 内可见元素
Sectioning Content  → <article>, <aside>, <nav>, <section>
Heading Content     → <h1> ~ <h6>, <hgroup>
Phrasing Content    → <span>, <em>, <strong>, <a>, <img> 等行内元素
Embedded Content    → <img>, <video>, <iframe>, <canvas>, <svg>
Interactive Content → <a>, <button>, <input>, <select>, <details>

关键规则： Sectioning Content 元素会创建新的 Outline Section，即使你没有显式写标题。这意味着每个 <section> 或 <article> 理论上都应该包含一个标题元素。

2.2 内容模型的约束关系

<!-- ✅ 合法：<a> 可以包裹 Flow Content（当祖先无 Interactive Content 时）-->
<a href="/article">
  <article>
    <h2>文章标题</h2>
    <p>摘要内容...</p>
  </article>
</a>

<!-- ❌ 非法：Interactive Content 不能嵌套 Interactive Content -->
<a href="/link">
  <button>点击我</button>  <!-- 违规：button 是 Interactive Content -->
</a>

<!-- ❌ 非法：<p> 只接受 Phrasing Content -->
<p>
  <div>这会导致浏览器自动关闭 p 标签</div>
</p>

浏览器在遇到非法嵌套时会执行 Parser Error Recovery——自动关闭标签、重新排列 DOM。这种隐式修正往往导致难以调试的布局问题。

2.3 Transparent Content Model

某些元素（如 <a>、<ins>、<del>、<object>）采用 Transparent（透明） 内容模型：它们的合法子元素取决于其父元素的内容模型。

<!-- <a> 在 <p> 内只能包含 Phrasing Content -->
<p>请<a href="/more">点击 <em>这里</em> 了解更多</a></p>

<!-- <a> 在 <div> 内可以包含 Flow Content -->
<div>
  <a href="/card">
    <h3>卡片标题</h3>
    <p>卡片描述</p>
  </a>
</div>

三、核心语义元素深度解析

3.1 Document Landmarks

<body>
  <header>          <!-- Banner Landmark：页面级头部 -->
    <nav>           <!-- Navigation Landmark -->
      <ul>...</ul>
    </nav>
  </header>

  <main>            <!-- Main Landmark：唯一，页面核心内容 -->
    <article>       <!-- Article Landmark：独立可分发内容 -->
      <header>      <!-- 嵌套 header 不映射为 Banner -->
        <h1>文章标题</h1>
        <time datetime="2026-03-31">2026年3月31日</time>
      </header>
      <section>     <!-- Region Landmark（当有 aria-label 时）-->
        <h2>章节一</h2>
        <p>内容...</p>
      </section>
    </article>
    <aside>         <!-- Complementary Landmark：侧边栏 -->
      <h2>相关文章</h2>
    </aside>
  </main>

  <footer>          <!-- ContentInfo Landmark -->
    <p>&copy; 2026</p>
  </footer>
</body>

3.2 `<article>` vs `<section>` 的判断标准

这是最常被误用的一对标签。判断原则：

<article>：内容可以独立分发（syndication）。问自己："把这段内容抽出来放到 RSS Feed 或另一个页面，它是否仍然完整有意义？" 如果是，用 <article>。
<section>：内容是更大整体的一个主题分组。通常需要标题，但不能独立存在。

<!-- 博客文章 → article -->
<article>
  <h2>理解 CSS Grid</h2>
  <p>CSS Grid 是一种二维布局系统...</p>

  <!-- 文章内的评论 → 嵌套 article（每条评论可独立引用）-->
  <section>
    <h3>评论区</h3>
    <article>
      <header><b>用户 A</b> <time>2026-03-30</time></header>
      <p>非常棒的文章！</p>
    </article>
  </section>
</article>

<!-- 首页的多个产品介绍板块 → section -->
<section>
  <h2>我们的产品</h2>
  <div class="product-grid">...</div>
</section>

3.3 微语义元素

元素	语义	常见误区
`<em>`	强调（改变句意重心）	不是"斜体标签"，屏幕阅读器会用不同语调朗读
`<strong>`	重要性	不是"加粗标签"，表示内容的重要程度
`<mark>`	高亮/引起注意	用于搜索结果匹配、用户行为相关的高亮
`<time>`	机器可读时间	必须有 `datetime` 属性提供标准格式
`<address>`	联系信息	仅用于文档/article 作者的联系方式，不是通用地址标签
`<figure>` / `<figcaption>`	带标题的自包含内容	不限于图片，可包裹代码块、表格、引用等
`<dfn>`	术语定义	包裹的文本是被定义的术语，周围的内容是定义
`<abbr>`	缩写	`title` 属性提供全称

3.4 `<dl>` 描述列表的正确用法

<!-- 术语表 -->
<dl>
  <dt>Semantic HTML</dt>
  <dd>使用有含义的 HTML 标签来描述内容结构</dd>

  <dt>Content Model</dt>
  <dd>HTML 规范中定义的元素嵌套规则体系</dd>
</dl>

<!-- 键值对数据（如个人资料）-->
<dl>
  <div> <!-- HTML5.2+ 允许 div 包裹 dt/dd 组 -->
    <dt>姓名</dt>
    <dd>张三</dd>
  </div>
  <div>
    <dt>职位</dt>
    <dd>前端工程师</dd>
  </div>
</dl>

四、Document Outline 算法

4.1 经典算法与现实

HTML5 规范曾定义了一个 Outline Algorithm：Sectioning Content 元素（<article>、<section> 等）会创建新的层级，使得每个 section 内部可以从 <h1> 重新开始。

<!-- 按 Outline Algorithm 的理论 -->
<body>
  <h1>网站标题</h1>        <!-- Level 1 -->
  <section>
    <h1>章节标题</h1>      <!-- 理论上是 Level 2 -->
    <section>
      <h1>子章节标题</h1>  <!-- 理论上是 Level 3 -->
    </section>
  </section>
</body>

重要现实： 截至 2026 年，没有任何浏览器或辅助技术实现了这个算法。所有屏幕阅读器仍然依赖 <h1> 到 <h6> 的显式层级。因此：

4.2 工程实践建议

<!-- ✅ 推荐：使用显式标题层级 -->
<main>
  <h1>文章标题</h1>
  <section>
    <h2>第一章</h2>
    <section>
      <h3>1.1 小节</h3>
    </section>
  </section>
</main>

<!-- ❌ 不推荐：依赖 Outline Algorithm -->
<main>
  <h1>文章标题</h1>
  <section>
    <h1>第一章</h1>  <!-- 屏幕阅读器会读成另一个 H1 -->
  </section>
</main>

五、Microdata 与结构化数据

5.1 在 HTML 中嵌入结构化数据

语义化不仅面向浏览器，还面向搜索引擎。Schema.org 的结构化数据可以通过 Microdata 直接嵌入 HTML：

<article itemscope itemtype="https://schema.org/Article">
  <header>
    <h1 itemprop="headline">深入理解语义化 HTML</h1>
    <time itemprop="datePublished" datetime="2026-03-31">
      2026年3月31日
    </time>
    <span itemprop="author" itemscope itemtype="https://schema.org/Person">
      <span itemprop="name">前端大师</span>
    </span>
  </header>
  <div itemprop="articleBody">
    <p>语义化 HTML 是现代前端开发的基石...</p>
  </div>
</article>

5.2 JSON-LD 替代方案

在实际工程中，JSON-LD 比 Microdata 更主流，因为它不与 HTML 结构耦合：

<script type="application/ld+json">
{
  "@context": "https://schema.org",
  "@type": "Article",
  "headline": "深入理解语义化 HTML",
  "datePublished": "2026-03-31",
  "author": { "@type": "Person", "name": "前端大师" }
}
</script>

六、常见反模式与修正

6.1 "Div Soup"

<!-- ❌ Div Soup -->
<div class="header">
  <div class="nav">
    <div class="nav-item"><a href="/">首页</a></div>
  </div>
</div>

<!-- ✅ 语义化重构 -->
<header>
  <nav aria-label="主导航">
    <ul>
      <li><a href="/">首页</a></li>
    </ul>
  </nav>
</header>

6.2 滥用 `<section>` 代替 `<div>`

<section> 不是"语义化的 div"。当一个容器仅用于样式分组，没有主题含义时，<div> 仍然是正确选择：

<!-- ❌ 错误：section 作为纯样式容器 -->
<section class="flex gap-4">
  <section class="w-1/2">左栏</section>
  <section class="w-1/2">右栏</section>
</section>

<!-- ✅ 正确：div 用于布局，section 用于主题分组 -->
<div class="flex gap-4">
  <div class="w-1/2">左栏</div>
  <div class="w-1/2">右栏</div>
</div>

6.3 空 heading 和跳级

<!-- ❌ 标题跳级 -->
<h1>网站标题</h1>
<h3>直接跳到 H3</h3>  <!-- 缺少 H2 层级 -->

<!-- ❌ 空标题 -->
<h2></h2>  <!-- 某些 CMS 会生成空标题 -->
<h2 class="visually-hidden">产品列表</h2>  <!-- ✅ 用 visually-hidden 而非删除 -->

七、语义化审计清单

在 Code Review 或自查时，可以按以下清单逐项检查：

页面是否有且仅有一个 <main> 元素？
标题层级是否连续（h1 → h2 → h3），无跳级？
<nav> 是否用于主要导航块，且有 aria-label 区分多个导航？
图片是否在语义上属于内容？ 是 → <figure> + <figcaption>；纯装饰 → CSS background
列表数据是否使用了 <ul>/<ol>/<dl>？ 而非 <div> + <br>
表格数据是否使用了 <table> + <thead>/<tbody> + <th scope>？
时间信息是否使用了 <time datetime="...">？
交互控件是否使用了原生语义元素？ <button> 而非 <div onclick>
<article> 内容是否真正可独立分发？
页面在禁用 CSS 后是否仍可理解？ 这是语义化的终极测试

八、工具链集成

8.1 自动化语义检查

# axe-core CLI
npx @axe-core/cli https://localhost:3000

# HTMLHint 自定义规则
# .htmlhintrc
{
  "tagname-lowercase": true,
  "tag-pair": true,
  "doctype-first": true,
  "title-require": true
}

8.2 ESLint JSX 语义规则

在 React/JSX 项目中，eslint-plugin-jsx-a11y 提供了语义化相关的 Lint 规则：

{
  "plugins": ["jsx-a11y"],
  "rules": {
    "jsx-a11y/heading-has-content": "error",
    "jsx-a11y/no-redundant-roles": "warn",
    "jsx-a11y/anchor-is-valid": "error"
  }
}

九、总结

语义化 HTML 的核心不在于"记住哪个标签做什么"，而在于建立一种思维方式：先定义含义，再赋予样式。每一个 HTML 元素的选择都应该回答"这段内容是什么"，而非"这段内容看起来像什么"。当你的 HTML 在没有 CSS 的情况下仍然结构清晰、层级分明，你就已经做到了真正的语义化。