福利溫馨提示
酷夏狂歡—紅包雨活動即將開啟,請做好搶紅包準備!數據分析一般用的軟件:
「Excel生態(tài)」:Excel、VBA、PowerQuery、PowerPivot、Power View、Power Map
「數理統(tǒng)計工具」:SAS、SPSS、Stata、Minitab、Eviews、Statistica、MATLAB、Mathematica
「BI工具」:PowerBI、Tableau、Qlikview、SAP BI、Oracel BI、FineBI、Yonghong BI
「數據庫工具」:MySQL、PostgreSQL、Oracle、SQLServer、MongoDB、Hive
「編程工具」:Python、R、Julia、Scala、Spark、Java、Hadoop
Excel生態(tài)
Excel不光包含表格軟件,還有很多內置的數據分析工具和插件,從群眾基礎來說無人能及。
1、Excel
無需多言,幾乎人人都在用的數據處理軟件,由微軟開發(fā),是office三劍客之一。
雖然excel很容易入手,但大部分人對excel的使用程度還處在入門階段,存取數據、做做表。
其實excel可以制作復雜的報表、模型、應用、系統(tǒng),比如構建金融分析模型。
大家學習excel,可以從基本界面、導入導出、公式&函數、篩選排序、數據格式、可視化圖表、數據透視表、數據模型、工作協作這幾個方面入手,最好是按照官網文檔指導,配合實踐,一般進步會很快。
2、VBA
Excel里的編程語言,通俗理解為宏,自動化地執(zhí)行一些操作。Office 軟件提供豐富的功能接口,VBA 可以調用它們,實現自定義的需求。
VBA最大的作用是自動化、批量化、智能化地操作Excel,被廣泛應用于數據分析處理、數據建模、報表開發(fā)、應用開發(fā)等,在金融、審計、財務等行業(yè)非常流行。
3、PowerQuery
一種嵌入Excel Microsoft 產品的技術,旨在幫助你塑造數據。在Excel,選擇功能區(qū)上的"數據"選項卡,查看"獲取&轉換數據和查詢"&連接"組。
從各種數據源導入和刷新數據后,可以在分步轉換中調整數據,逐步創(chuàng)建唯一的表格形狀以滿足數據分析需求。
4、PowerPivot
一種數據建模技術,用于創(chuàng)建數據模型,建立關系,以及創(chuàng)建計算。可使用 PowerPivot 處理大型數據集,構建廣泛的關系,以及創(chuàng)建復雜(或簡單)的計算,這些操作全部在高性能環(huán)境中和所你熟悉的 Excel 內執(zhí)行。
5、Power View
一種數據可視化技術,用于創(chuàng)建交互式圖表、圖形、地圖和其他視覺效果,以便直觀呈現數據。Power View 在 Excel、BI SharePoint、SQL Server 和 Power BI 中均可用。
6、Power Map
一種三維 (三維) 數據可視化工具,可用于以新方式查看信息。通過電源圖,可發(fā)現傳統(tǒng)二維表格和圖表中 (二維) 見解。
使用 Power Map ,可以在三維地球或自定義地圖上繪制地理和時態(tài)數據,顯示這些數據,并創(chuàng)建可以與其他人分享的視覺瀏覽
數理統(tǒng)計工具
這類工具偏專業(yè)數學統(tǒng)計分析,可以做數據挖掘、數據建模、系統(tǒng)搭建等工作,適合學術和大型商業(yè)公司。
7、SAS
三大統(tǒng)計軟件之一。是目前國際上最為流行的一種大型統(tǒng)計分析系統(tǒng),被譽為統(tǒng)計分析的標準軟件。
它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發(fā)、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等。
主要完成以數據為中心的四大任務:數據訪問;數據管理;數據呈現;數據分析。
8、SPSS
三大統(tǒng)計軟件之一。IBM公司的一系列用于統(tǒng)計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品及相關服務的總稱。
SPSS和Excel比較像,界面簡單,適合初學者使用,且統(tǒng)計功能強大,擁有四大模塊,用于數據處理、描述性分析、推斷性分析和探索性分析。
SPSS具有完整的數據輸入、編輯、統(tǒng)計分析、報表、圖形制作等功能,自帶11種類型136個函數。
SPSS提供了從簡單的統(tǒng)計描述到復雜的多因素統(tǒng)計分析方法,比如數據的探索性分析、統(tǒng)計描述、列聯表分析、二維相關、秩相關、偏相關、方差分析、非參數檢驗、多元回歸、生存分析、協方差分析、判別分析、因子分析、聚類分析、非線性回歸、Logistic回歸等。
9、Stata
三大統(tǒng)計軟件之一。是一套提供其使用者數據分析、數據管理以及繪制專業(yè)圖表的完整及整合性統(tǒng)計軟件。它功能非常強大,包含線性混合模型、均衡重復反復及多項式普羅比模式。
用Stata繪制的統(tǒng)計圖形相當精美,且Stata具有操作靈活、簡單、易學易用、運行速度極快等優(yōu)點。
功能包括:數據管理,統(tǒng)計分析,圖表,模擬,自定義編程。
10、Minitab
數據分析、統(tǒng)計、過程改善工具。應用場景是現代質量管理統(tǒng)計,通常結合一些統(tǒng)計處理方法,如六標準差(Six Sigma), 能力成熟度模型集成(CMMI),以及其他制程改善方法等。
11、Statistica
一個整合數據分析、圖表繪制、數據庫管理與自訂應用發(fā)展系統(tǒng)環(huán)境的專業(yè)軟件。
STATISTICA不僅提供使用者統(tǒng)計、繪圖與數據管理程序等一般目的的需求,更提供特定需求所需的數據分析方法(例如,數據挖掘、商業(yè)、社會科學、生物研究或工業(yè)工程等)。
12、MATLAB
三大數學軟件之一。一種用于算法開發(fā)、數據可視化、數據分析以及數值計算的高級技術計算語言和交互式環(huán)境。
除矩陣運算、繪制函數/數據圖像等常用功能外,MATLAB還可用來創(chuàng)建用戶界面,以及調用其它語言(包括C、C++、Java、Python、FORTRAN)編寫的程序。
MATLAB的工具箱非常強大,可以支持各行各業(yè)做數據分析建模。
典型應用有:數據分析、數值與符號計算、工程與科學繪圖、控制系統(tǒng)設計、航天工業(yè)、汽車工業(yè)、生物醫(yī)學工程、語音處理、圖像與數字信號處理、財務、金融分析、建模、仿真及樣機開發(fā)、新算法研究開發(fā)、圖形用戶界面設計等。
13、Mathematica
三大數學軟件之一。一款科學計算軟件,有時候也被稱為計算機代數系統(tǒng),廣泛使用于科學、工程、數學、計算等領域。
它很好地結合了數值和符號計算引擎、圖形系統(tǒng)、編程語言、文本系統(tǒng)、和與其他應用程序的高級連接,很多功能在相應領域內處于世界領先地位。
BI工具
BI也就是商業(yè)智能,一般用來分析商業(yè)數據,洞察商業(yè)機會。這可以是大部分數據分析崗位需要用到的工具,因為學習簡單,且數據處理和展示功能強大。
14、PowerBI
微軟的BI產品,也是目前世界上最流的BI工具之一,它優(yōu)勢在于和微軟生態(tài)集成較好。
Power BI 是軟件服務、應用和連接器的集合,它們協同工作以將相關數據來源轉換為連貫的視覺逼真的交互式見解。
無論用戶的數據是簡單的 Excel 電子表格,還是基于云和本地混合數據倉庫的集合,Power BI 都可讓用戶輕松地連接到數據源,直觀看到(或發(fā)現)重要內容,與任何所希望的人進行共享。
Power BI 簡單且快速,能夠從 Excel 電子表格或本地數據庫創(chuàng)建快速見解。同時 Power BI 也可進行豐富的建模和實時分析,及自定義開發(fā)。
因此它既是用戶的個人報表和可視化工具,還可用作組項目、部門或整個企業(yè)背后的分析和決策引擎。
15、Tableau
同樣是目前世界上最流的BI工具之一,優(yōu)點是數據分析、可視化能力強大。
Tableau是用于可視分析數據的商業(yè)智能工具。用戶可以創(chuàng)建和分發(fā)交互式和可共享的儀表板,以圖形和圖表的形式描繪數據的趨勢,變化和密度。
Tableau可以連接到文件,關系數據源和大數據源來獲取和處理數據。該軟件允許數據混合和實時協作,這使它非常獨特。它被企業(yè),學術研究人員和許多政府用來進行視覺數據分析。它還被定位為Gartner魔力象限中的領導者商業(yè)智能和分析平臺。
16、Qlikview
一個完整的商業(yè)分析軟件,使開發(fā)者和分析者能夠構建和部署強大的分析應用。QlikView應用使各種各樣的終端用戶以一個高度可視化,功能強大和創(chuàng)造性的方式,互動分析重要業(yè)務信息。
它讓開發(fā)者能從多種數據庫里提取和清洗數據,建立強大、高效的應用,而且使它們能被Power用戶、移動用戶和每天的終端用戶修改后使用。
17、SAP BI
SAP公司的BI服務,一款支持數據報告、可視化和共享的集中式套件。作為 SAP Business Technology Platform [業(yè)務技術云平臺] 的本地 BI 層,該套件可以隨時隨地將數據轉化為有用的洞察。
18、OracleBI
Oracle公司的BI服務。
19、FineBI
國內較為領先的BI軟件,定位于自助大數據分析的BI工具,提供數據處理、即時分析、多維度分析、可視化等服務。
20、Yonghong BI
同樣是國內較為領先的BI軟件,基于本機安裝,省去繁瑣的部署環(huán)節(jié),即裝即用。提供一站式、敏捷、高效的數據治理及可視化分析、AI深度分析能力。
數據庫工具
數據庫是數據存儲的工具,一般企業(yè)都會有自己的私有部署數據庫,或者云數據庫,每一位數據從業(yè)者幾乎都需要和數據庫打交道。因為熟悉各類數據庫,并編寫SQL查詢,是數據人必備技能之一。
21、MySQL
最流行數據庫之一,國內互聯網公司最喜歡的數據庫,我愿稱之為必學。
MySQL在過去由于性能高、成本低、可靠性好,已經成為最流行的開源數據庫,因此被廣泛地應用在Internet上的中小型網站中。
隨著MySQL的不斷成熟,它也逐漸用于更多大規(guī)模網站和應用,比如維基百科、Google和Facebook等網站。非常流行的開源軟件組合LAMP中的“M”指的就是MySQL。
22、PostgreSQL
最強大且最具潛力的數據庫之一,開源免費,分析能力強,穩(wěn)定可靠,支持廣泛。在很多方面都比MySQL強,如復雜SQL的執(zhí)行、存儲過程、觸發(fā)器、索引。我愿稱之為最強。
23、Oracle
老牌企業(yè),最穩(wěn)定的數據庫之一。大部分銀行、證券、電信等行業(yè)都在使用Oracle,因為其商業(yè)化程度高、功能強大且穩(wěn)定,所以備受世界500強歡迎。
24、SQLServer
微軟公司數據庫產品,windows系統(tǒng)上最強王者。具有易用性、適合分布式組織的可伸縮性、用于決策支持的數據倉庫功能、與許多其他服務器軟件緊密關聯的集成性、良好的性價比等。
25、MongoDB
一個基于分布式文件存儲的數據庫。由 C++ 語言編寫。旨在為 WEB 應用提供可擴展的高性能數據存儲解決方案。
MongoDB 是一個介于關系數據庫和非關系數據庫之間的產品,是非關系數據庫當中功能最豐富,最像關系數據庫的。
26、Hive
Hadoop大數據生態(tài)的數據查詢工具,一個用來開發(fā)SQL類型腳本來執(zhí)行MapReduce操作的平臺,當前在互聯網公司應用非常廣泛。
具體來說,Hive是一個數據倉庫基礎設施工具,用于處理Hadoop中的結構化數據。它位于Hadoop的頂部,用于匯總大數據,并使查詢和分析變得輕松。
編程工具
除了上述的數據分析軟件外,編程用于數據分析也是大趨勢。越來越多的數據分析師通過Python、R等進行數據建模、可視化,而且編程語言快速、靈活、復用性強的特點也適合數據處理分析。
27、Python
目前最火的數據科學編程語言,沒有之一。Python因為其簡潔的語法、強大的生態(tài)、無所不能的應用幾乎已經霸占了數據分析編程領域的半壁江山。
前段時間matlab被限制在中國使用,知乎上開始討論什么工具可以替代matlab,python是被提及最多的編程語言。
且不說python能否替代matlab,就目前python在科學計算、模型構建、可視化上的能力就已經可以傲視編程界,其擁有像numpy、scipy、statemodels、pandas、matplotlib等眾多現象級的數據科學庫。
不管是github、kaggle、天池,還是企業(yè)高校里的數據項目,python幾乎都已成為首選支持語言之一。
另外在高端科技領域,同樣有python的身影。自 1997 年,NASA 就大量使用 Python 進行各種復雜的科學運算。
至于AI,這也是python的看家本領了,其應用生態(tài)可謂波瀾壯闊、群星云集。
不僅有tensorflow、pytorch、caffe、keras等主流人工智能學習框架,還有Gensim、NLTK、OpenCV、Mahotas等專注于nlp、cv細分領域的經典開發(fā)工具。
28、R
編程統(tǒng)計工具的鼻祖。作為一種統(tǒng)計分析軟件,是集統(tǒng)計分析與圖形顯示于一體的。它可以運行于UNIX、Windows和Macintosh的操作系統(tǒng)上,而且嵌入了一個非常方便實用的幫助系統(tǒng)。
R是一套由數據操作、計算和圖形展示功能整合而成的套件。
包括:有效的數據存儲和處理功能,一套完整的數組(特別是矩陣)計算操作符,擁有完整體系的數據分析工具,為數據分析和顯示提供的強大圖形功能,一套(源自S語言)完善、簡單、有效的編程語言(包括條件、循環(huán)、自定義函數、輸入輸出功能)。
29、Julia
編程數據分析領域的新星。Julia 是一個面向科學計算的高性能動態(tài)高級程序設計語言,
首先定位是通用編程語言,其次是高性能計算語言。
Julia在分布式并行化、精確數值計算等方面提供了獨具特色的支持,并包含大量可擴展的數學函數庫。
尤其是在線性代數、隨機數生成、信號處理、字符串處理等方面,集成了眾多成熟、優(yōu)秀的基于C和Fortran開發(fā)的開源庫,有著很高的性能與效率。
另外,Julia有著強大開放的開發(fā)者社區(qū),貢獻了大量的第三方庫,并可通過內置的包(Package)管理器進行方便的安裝使用。
30、Scala
Java的衍生語言,用于spark數據分析、大數據開發(fā)等。
31、Spark
一個開源集群運算框架,Spark在存儲器內執(zhí)行程序的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執(zhí)行程序于硬盤時,Spark也能快上10倍速度。
Spark允許用戶將資料加載至集群存儲器,并多次對其進行查詢,非常適合用于機器學習算法。
32、Java
不用多說,最流行的編程語言。其在數據分析領域的應用主要是搭建大數據框架。
33、Hadoop
最流行的大數據框架,幾乎大部分互聯網公司都在用,如果你做大數據,肯定離不開它。
簡答來說,Hadoop是一款支持數據密集型分布式應用程序,并以Apache 2.0許可協議發(fā)布的開源軟件框架。它支持在商用硬件構建的大型集群上運行的應用程序。
Hadoop是根據谷歌公司發(fā)表的MapReduce和Google文件系統(tǒng)的論文自行實現而成。所有的Hadoop模塊都有一個基本假設,即硬件故障是常見情況,應該由框架自動處理。
等等。
如還有其他困惑,可在線了解有關信息>>>了解數據分析培訓>>>
上一篇: 數據分析師的前景怎么樣
下一篇: 數據分析需要學哪些