这是针对尚未了解pd.read_html的粉丝群体
准备好了吗 🐴 是时候再来一次对数据科学的好的、坏的和丑陋的概括了。
如果你还不是pd.read_html()
或其表亲pd.to_html()
的粉丝,那你错过了很多。如果你给我一个机会,我会在本文结束时让你改变主意。
在本文中,我首先会简要展示pd.read_html()
的一个演示,然后介绍其优点(它的优势)、缺点(其限制和弱点)以及丑陋的一面(其怪癖)。
简单来说,pd.read_html()
可以让你用一行代码获取HTML文档中的所有表格。如果你对此不感到惊讶,我相信你还没有充分考虑到这里的全部用途和影响。
这个维基百科上的表格显示了关于明尼苏达州著名的10000个湖泊的信息。
从数据管理的角度来看,这个表格有问题。它有九列。但最右边的列有时有数据,有时没有。当没有数据时,最右边的一些列会合并,但有时不会。这种一致性的配置混乱使得它有问题。
你可以在家中模拟问题,通过高亮显示上面展示的六行来玩一下。然后,我将它们复制并粘贴到电子表格中,得到这种丑陋、难以阅读和无用的结果。
否则,请考虑以下一行代码的结果:
pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]
虽然不完美,但这将返回以下更易读、更有用的结果。