java未來趨勢Java促進大數(shù)據(jù)的大發(fā)展

沒有Java，甚至不會有大數(shù)據(jù)的大發(fā)展，Hadoop本身就是用Java編寫的。當你需要在運行MapReduce的服務器集群上發(fā)布新功能時，你需

創(chuàng)新互聯(lián)2013年開創(chuàng)至今，先為漢臺等服務建站，漢臺等地企業(yè)，進行企業(yè)商務咨詢服務。為漢臺企業(yè)網(wǎng)站制作PC+手機+微官網(wǎng)三網(wǎng)同步一站式服務解決您的所有建站問題。

要進行動態(tài)的部署，而這正是Java所擅長的。

大數(shù)據(jù)領域支持Java的主流開源工具：

1. HDFS

HDFS是Hadoop應用程序中主要的分布式儲存系統(tǒng)， HDFS集群包含了一個NameNode（主節(jié)點），這個節(jié)點負責管理所有文件系統(tǒng)的元數(shù)據(jù)

及存儲了真實數(shù)據(jù)的DataNode（數(shù)據(jù)節(jié)點，可以有很多）。HDFS針對海量數(shù)據(jù)所設計，所以相比傳統(tǒng)文件系統(tǒng)在大批量小文件上的優(yōu)化，

HDFS優(yōu)化的則是對小批量大型文件的訪問和存儲。

2. MapReduce

Hadoop MapReduce是一個軟件框架，用以輕松編寫處理海量（TB級）數(shù)據(jù)的并行應用程序，以可靠和容錯的方式連接大型集群中上萬個節(jié)

點（商用硬件）。

3. HBase

Apache HBase是Hadoop數(shù)據(jù)庫，一個分布式、可擴展的大數(shù)據(jù)存儲。它提供了大數(shù)據(jù)集上隨機和實時的讀/寫訪問，并針對了商用服務器

集群上的大型表格做出優(yōu)化——上百億行，上千萬列。其核心是Google Bigtable論文的開源實現(xiàn)，分布式列式存儲。就像Bigtable利用

GFS（Google File System）提供的分布式數(shù)據(jù)存儲一樣，它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。

4. Cassandra

Apache Cassandra是一個高性能、可線性擴展、高有效性數(shù)據(jù)庫，可以運行在商用硬件或云基礎設施上打造完美的任務關鍵性數(shù)據(jù)平臺。

在橫跨數(shù)據(jù)中心的復制中，Cassandra同類最佳，為用戶提供更低的延時以及更可靠的災難備份。通過log-structured update、反規(guī)范化

和物化視圖的強支持以及強大的內置緩存，Cassandra的數(shù)據(jù)模型提供了方便的二級索引（column indexe）。

5. Hive

Apache Hive是Hadoop的一個數(shù)據(jù)倉庫系統(tǒng)，促進了數(shù)據(jù)的綜述（將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表）、即席查詢以及存儲在

Hadoop兼容系統(tǒng)中的大型數(shù)據(jù)集分析。Hive提供完整的SQL查詢功能——HiveQL語言，同時當使用這個語言表達一個邏輯變得低效和繁瑣

時，HiveQL還允許傳統(tǒng)的Map/Reduce程序員使用自己定制的Mapper和Reducer。

6. Pig

Apache Pig是一個用于大型數(shù)據(jù)集分析的平臺，它包含了一個用于數(shù)據(jù)分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃

光特性在于它們的結構經(jīng)得起大量的并行，也就是說讓它們支撐起非常大的數(shù)據(jù)集。Pig的基礎設施層包含了產(chǎn)生Map-Reduce任務的編譯

器。Pig的語言層當前包含了一個原生語言——Pig Latin，開發(fā)的初衷是易于編程和保證可擴展性。

java未來趨勢 Java促進大數(shù)據(jù)的大發(fā)展

7. Chukwa

Apache Chukwa是個開源的數(shù)據(jù)收集系統(tǒng)，用以監(jiān)視大型分布系統(tǒng)。建立于HDFS和Map/Reduce框架之上，繼承了Hadoop的可擴展性和穩(wěn)定

性。Chukwa同樣包含了一個靈活和強大的工具包，用以顯示、監(jiān)視和分析結果，以保證數(shù)據(jù)的使用達到最佳效果。

8. Ambari

Apache Ambari是一個基于web的工具，用于配置、管理和監(jiān)視Apache Hadoop集群，支持Hadoop HDFS,、Hadoop MapReduce、Hive、

HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤，比如heatmaps和查看MapReduce、Pig、Hive

應用程序的能力，以友好的用戶界面對它們的性能特性進行診斷。

9. ZooKeeper

Apache ZooKeeper是一個針對大型分布式系統(tǒng)的可靠協(xié)調系統(tǒng)，提供的功能包括：配置維護、命名服務、分布式同步、組服務等。

ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。

10. Sqoop

Sqoop是一個用來將Hadoop和關系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉移的工具，可以將一個關系型數(shù)據(jù)庫中數(shù)據(jù)導入Hadoop的HDFS中，也可以將

HDFS中數(shù)據(jù)導入關系型數(shù)據(jù)庫中。

11. Oozie

Apache Oozie是一個可擴展、可靠及可擴充的工作流調度系統(tǒng)，用以管理Hadoop作業(yè)。Oozie Workflow作業(yè)是活動的Directed Acyclical

Graphs（DAGs）。Oozie Coordinator作業(yè)是由周期性的Oozie Workflow作業(yè)觸發(fā)，周期一般決定于時間（頻率）和數(shù)據(jù)可用性。Oozie與

余下的Hadoop堆棧結合使用，開箱即用的支持多種類型Hadoop作業(yè)（比如：Java map-reduce、Streaming map-reduce、Pig、 Hive、

Sqoop和Distcp）以及其它系統(tǒng)作業(yè)（比如Java程序和Shell腳本）。

12. Mahout

Apache Mahout是個可擴展的機器學習和數(shù)據(jù)挖掘庫，當前Mahout支持主要的4個用例：

推薦挖掘：搜集用戶動作并以此給用戶推薦可能喜歡的事物。

聚集：收集文件并進行相關文件分組。

分類：從現(xiàn)有的分類文檔中學習，尋找文檔中的相似特征，并為無標簽的文檔進行正確的歸類。

頻繁項集挖掘：將一組項分組，并識別哪些個別項會經(jīng)常一起出現(xiàn)。

13. HCatalog

Apache HCatalog是Hadoop建立數(shù)據(jù)的映射表和存儲管理服務，它包括：

提供一個共享模式和數(shù)據(jù)類型機制。

提供一個抽象表，這樣用戶就不需要關注數(shù)據(jù)存儲的方式和地址。

為類似Pig、MapReduce及Hive這些數(shù)據(jù)處理工具提供互操作性。

網(wǎng)頁標題：java未來趨勢Java促進大數(shù)據(jù)的大發(fā)展
當前路徑：http://m.jiaotiyi.com/article/jcdgsp.html

網(wǎng)站建設知識

java未來趨勢Java促進大數(shù)據(jù)的大發(fā)展

其他資訊