HTMLエンティティをデコードする理由
スクレイピングしたコンテンツ、RSSフィード、CMSからエクスポートしたデータは、é や é だらけの状態で届きます。上の入力欄にテキストを貼り付ければ、エンティティを読める文字に戻せます。
仕組み
数値参照(10進数と16進数)はコードポイントによってデコードされ、よく使われる名前付きエンティティは組み込みのテーブルで照合されます。認識できないものはそのまま保持されるため、部分的にエンコードされたテキストが壊れることはありません。