pd.read_html的好，坏和丑

这是针对尚未了解pd.read_html的粉丝群体

准备好了吗 🐴 是时候再来一次对数据科学的好的、坏的和丑陋的概括了。

如果你还不是pd.read_html()或其表亲pd.to_html()的粉丝，那你错过了很多。如果你给我一个机会，我会在本文结束时让你改变主意。

在本文中，我首先会简要展示pd.read_html()的一个演示，然后介绍其优点（它的优势）、缺点（其限制和弱点）以及丑陋的一面（其怪癖）。

简单来说，pd.read_html()可以让你用一行代码获取HTML文档中的所有表格。如果你对此不感到惊讶，我相信你还没有充分考虑到这里的全部用途和影响。

这个维基百科上的表格显示了关于明尼苏达州著名的10000个湖泊的信息。

从数据管理的角度来看，这个表格有问题。它有九列。但最右边的列有时有数据，有时没有。当没有数据时，最右边的一些列会合并，但有时不会。这种一致性的配置混乱使得它有问题。

你可以在家中模拟问题，通过高亮显示上面展示的六行来玩一下。然后，我将它们复制并粘贴到电子表格中，得到这种丑陋、难以阅读和无用的结果。

否则，请考虑以下一行代码的结果：

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

虽然不完美，但这将返回以下更易读、更有用的结果。