網(wǎng)站首頁科技 > 正文

大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè)向行業(yè)應用延伸

2022-01-10 09:22:19 科技來源：搜狐網(wǎng)

導讀 2022年1月10整理發(fā)布：近年來，隨著大數(shù)據(jù)底層設施的逐漸成熟，大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè)，向行業(yè)應用延伸。圍繞數(shù)據(jù)資源、基礎(chǔ)硬件、通

2022年1月10整理發(fā)布：近年來，隨著大數(shù)據(jù)底層設施的逐漸成熟，大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè)，向行業(yè)應用延伸。圍繞數(shù)據(jù)資源、基礎(chǔ)硬件、通用軟件等方面的大數(shù)據(jù)產(chǎn)業(yè)正在逐漸形成。各行各業(yè)對大數(shù)據(jù)人才的需求也日益增強。鑒于此，國內(nèi)外一些高校先后開設“數(shù)據(jù)科學與大數(shù)據(jù)”專業(yè)，旨在培養(yǎng)具備大數(shù)據(jù)技術(shù)的高級人才。

編寫目的

為滿足相關(guān)技術(shù)人員和高校師生學習大數(shù)據(jù)技術(shù)基礎(chǔ)知識，我們在總結(jié)近幾年大數(shù)據(jù)技術(shù)基礎(chǔ)知識和應用案例的基礎(chǔ)上，以理論結(jié)合實踐的方式將大數(shù)據(jù)基本概念、大數(shù)據(jù)開發(fā)技術(shù)與實際應用相結(jié)合，精心組織并完成了本書的編寫。

本書主要內(nèi)容

本書為一本夯實大數(shù)據(jù)基礎(chǔ)知識，以實際應用為導向的書籍，非常適合初、中級學習大數(shù)據(jù)技術(shù)的讀者。讀者可以在短時間內(nèi)學習本書中介紹的所有知識，掌握大數(shù)據(jù)技術(shù)的開發(fā)方法。

作為一本關(guān)于大數(shù)據(jù)技術(shù)的入門書籍，本書共有14章。

第1章主要介紹了大數(shù)據(jù)的研究背景、大數(shù)據(jù)的定義及其技術(shù)特點以及大數(shù)據(jù)處理的主要技術(shù)特點與難點，最后闡述了研究大數(shù)據(jù)的意義。

第2章主要介紹了Hadoop的起源、生態(tài)體系和集群架構(gòu)，對Hadoop的安裝配置進行了詳細的講解。

第3章主要介紹了Hadoop中非常重要的分布式存儲文件系統(tǒng)——HDFS，分析了HDFS的存儲架構(gòu)以及常用Shell命令和Java API，并且通過一個具體案例實現(xiàn)了HDFS的Java API的編程。

第4章主要介紹了Hadoop的分布式計算框架MapReduce，分析了MapReduce的核心思想、工作原理、運行機制以及MapReduce的核心過程Shuffle，最后通過單詞計數(shù)和倒排索引兩個案例詳細分析MapReduce的編寫過程和思路。

第5章主要介紹了Hive的架構(gòu)、安裝和相關(guān)操作，重點介紹Hive的DDL、DML、DQL操作。

第6章首先介紹了HBase的架構(gòu)、尋址機制以及HBase的安裝，然后介紹了HBase的Shell操作，包括新建表、插入數(shù)據(jù)、刪除等操作，最后介紹了HBase常用的Java API，并且進行了案例實現(xiàn)。

第7章主要介紹了Spark的基本概念和主要特點、Spark的安裝、運行架構(gòu)和運行基本流程，是為學習Spark RDD和 Spark SQL做基礎(chǔ)知識儲備。

第8章主要介紹了RDD的運行原理和運行流程，并對RDD的基本操作進行了詳細的介紹，最后用一個Scala編程案例實現(xiàn)對RDD的操作。

第9章主要介紹了Spark SQL的原理和運行流程，并對DataFrame的基本操作進行了詳細的介紹，最后通過三個Scala編程案例實現(xiàn)了Spark SQL的DataFrame操作、Spark SQL 讀寫MySQL數(shù)據(jù)庫和Spark SQL讀寫Hive。

第10章主要介紹了Spark Streaming的一些基本概念和原理，介紹了DStream編程模型，最后通過三個Scala編程案例實現(xiàn)了DStream的有狀態(tài)狀態(tài)操作、無狀態(tài)狀態(tài)操作、輸出操作。

第11章主要介紹了Spark Streaming與Flume、Kafka的整合，介紹了Flume和Kafka的安裝過程，最后通過一個Scala編程案例實現(xiàn)Spark Streaming與Flume、Kafka的整合與開發(fā)。

第12章介紹了機器學習的定義和分類，重點介紹了Spark MLlib目前包含的算法和組件，通過四個具體實例TFIDF、線性回歸、邏輯回歸、協(xié)同過濾展示了利用Spark MLlib進行機器學習的方法和步驟。

第13章介紹了分布式優(yōu)惠券后臺應用系統(tǒng)的開發(fā)核心思路，優(yōu)惠券后臺應用系統(tǒng)包括商戶投放子系統(tǒng)和用戶消費子系統(tǒng)，分別介紹了兩個子系統(tǒng)的核心代碼以及測試調(diào)用過程。

第14章介紹了新聞話題實時統(tǒng)計分析系統(tǒng)的開發(fā)核心思路和核心代碼以及啟動調(diào)用過程。

本書特色

(1)以實戰(zhàn)開發(fā)為導向，對基礎(chǔ)理論知識點與開發(fā)過程進行詳細講解。

(2)實戰(zhàn)案例豐富，涵蓋16 個完整項目案例和兩個綜合案例，綜合案例可以加深對本書所學的知識點的理解和掌握。

(3)代碼詳盡，避免對 API 的形式展示，規(guī)避重復代碼。

(4)語言簡明易懂，由淺入深帶領(lǐng)讀者學會以 Hadoop生態(tài)圈為核心的開發(fā)技術(shù)和大數(shù)據(jù)常見的機器學習算法。

配套資源

為便于教學，本書配有源代碼、數(shù)據(jù)集、安裝程序、教學大綱。

編輯推薦

16個完整的項目案例和兩個綜合案例，配有教學大綱等資源

讀者對象

本書主要面向廣大從事大數(shù)據(jù)分析、應用開發(fā)、機器學習、數(shù)據(jù)挖掘的專業(yè)人員以及從事高校信息技術(shù)專業(yè)的教師和高等院校的在讀學生及相關(guān)領(lǐng)域的廣大科研人員。

版權(quán)說明： 本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標簽：

上一篇：平板電腦如何選擇
下一篇： Seagull海鷗吉他的理念是做出最好的手工吉它

大香蕉综合在线观看视频-日本在线观看免费福利-欧美激情一级欧美精品性-综合激情丁香久久狠狠

網(wǎng)站首頁科技 > 正文

大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè)向行業(yè)應用延伸

猜你喜歡：

最新文章：

大香蕉综合在线观看视频-日本在线观看免费福利-欧美激情一级欧美精品性-综合激情丁香久久狠狠

網(wǎng)站首頁 科技 > 正文

大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè)向行業(yè)應用延伸

猜你喜歡：

最新文章：

網(wǎng)站首頁科技 > 正文