Press "Enter" to skip to content

pd.read_html的好,坏和丑

这是针对尚未了解pd.read_html的粉丝群体

准备好了吗 🐴 是时候再来一次对数据科学的好的、坏的和丑陋的概括了。

如果你还不是pd.read_html()或其表亲pd.to_html()的粉丝,那你错过了很多。如果你给我一个机会,我会在本文结束时让你改变主意。

在本文中,我首先会简要展示pd.read_html()的一个演示,然后介绍其优点(它的优势)、缺点(其限制和弱点)以及丑陋的一面(其怪癖)。

图片来源:作者使用Canva将文本制作成图像 🤠 🐼

简单来说,pd.read_html()可以让你用一行代码获取HTML文档中的所有表格。如果你对此不感到惊讶,我相信你还没有充分考虑到这里的全部用途和影响。

这个维基百科上的表格显示了关于明尼苏达州著名的10000个湖泊的信息。

图片来源:从维基百科截图。感谢维基百科及其贡献者们在创作共用许可下分享信息。原地址:明尼苏达州湖泊列表

从数据管理的角度来看,这个表格有问题。它有九列。但最右边的列有时有数据,有时没有。当没有数据时,最右边的一些列会合并,但有时不会。这种一致性的配置混乱使得它有问题。

你可以在家中模拟问题,通过高亮显示上面展示的六行来玩一下。然后,我将它们复制并粘贴到电子表格中,得到这种丑陋、难以阅读和无用的结果。

图片来源:作者根据此处描述的步骤截屏

否则,请考虑以下一行代码的结果:

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

虽然不完美,但这将返回以下更易读、更有用的结果。

图片来源:作者使用此处显示的代码截屏

优点

Leave a Reply

Your email address will not be published. Required fields are marked *