当前位置: 主页 > 万向娱乐 > 合作伙伴 » 用Python进行简单的数据分析_万向娱乐
万向娱乐,万向娱乐平台,万向平台注册网址,万向娱乐注册开户
本文摘要:关于如何用于python展开数据分析的文章很多,涉及的书籍也有很多。
关于如何用于python展开数据分析的文章很多,涉及的书籍也有很多。本文是基于Excel思维用于python展开数据分析,换句话说就是本文不是传统意义上的专业python文章。
文章的内容共计分成8个部分,从最基础的数据引入和加载到分析结果的图表化输入。这其中包括了很多与Excel十分相近的函数和分析功能,如SUM,COUNTIF,TRANSPOSE函数,以及数据检验,分类汇总和数据投影表等功能等等,这些在python中都能寻找对应的代码。
因此,只要你不会用于基本的Excel函数就能看懂文中的python代码,并可以用于Python展开非常简单的数据分析。文章中的数据源来自LendingClub2017-2011年的公开发表数据。 1.开始前的打算工作 用于Python展开数据分析之前,必须预先引入比较不应的功能库。
数据分析最常用的库还包括用作数值计算出来的numpy,基于numpy建构的用作科学计算的Pandas库,用作数据可视化的matplotlib和获取各种操作系统功能模块的OS库。我们将这几个库导入到python中,import后是漏入库的名称as后是库的全称。
例如pandas库的全称是pd,在后面的代码中看见pd就回应这个操作者用于了pandas库。明确代码如下: importosasos importpandasaspd importnumpyasnp importmatplotlib.pyplotasplt 引入功能库后,就可以开始读取数据了。这里必须留意的是如果数据文件没留存在JupyterNotebook的工作目录中,在引入的过程中必须解释数据所在的路径。
如果你实在输出路径太麻烦的话,可以用于OS库查阅或更高操作系统中的工作目录。将数据文件必要拷到JupyterNotebook的工作目录中,通过下面的代码可以查阅JupyterNotebook的工作目录方位。
os.getcwd() 或者将数据所在位置的路径设置为工作目录。具体方法如下: os.chdir(lsquo;C:\\Users\\cliffwang\\Desktop\\pythonrsquo;) 我们将LendingClub的数据留存在JupyterNotebook工作目录开始读取数据。Python可以加载多种数据格式,如csv,xls和txt等等。LendingClub的数据源是csv格式的。
我们通过下面的代码已完成读取数据和创立数据表的工作。 lc=pd.DataFrame(pd.read_csv(lsquo;LoanStats3a.csvrsquo;,header=1)) 在上面读取数据的代码中,用于了pandas库(pd)中的功能,首先加载LoanStats3a.csv文件,并设置标题行header=1。然后将加载的csv文件转换成DataFrame并将这个数据表起名lc。
2.数据内容预览 数据加载工作已完成后,可以开始对数据展开非常简单的预览。预览内容主要还包括理解数据表的大小,字段的名称,数据格式等等。为接下来的数据分析工作做到打算。
首先查阅我们刚读取数据表的大小。通过下面的的结果可以看见LendingClub的数据表有4万多行,111个字段。
想更进一步查阅数据表中更加明确的内容可以通过后面的代码来构建。 lc.shape Columns是查阅表中各个字段名称之为的代码,以便利先前的分析工作。这里由于字段数量较多,python只所列了一部分字段的名称。 lc.columns 我们之后查阅数据表中明确的数据内容,由于这个数据表行数较多我们不查阅所有数据,只查阅开始和完结的几行。
下面的的结果中表明了数据表前5讫的数据内容。head后面的()括号中可以输出要查阅的明确行数,为机时配置文件只表明前5讫的数据。
在前5讫的数据表中可以找到,很多字段中都是NaN值,这有可能造成后面的字段不能用。不过究竟包括多少NaN值,我们在后面的数据清除部门不会展开详尽的统计资料。
本文来源:万向娱乐-www.langtaoquan.com