国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
人工智能與大數據能擦出什么火花?Spark MLlib告訴你很強大!

人工智能模型非常強大,但在使用中也會面臨諸多問題,例如模型規(guī)模太大訓練數據太多,因此我們可以將數據分配到多個工作節(jié)點進行訓練,亦或將模型分配到多個節(jié)點進行運算然后合并。但要從底層同時控制多臺機器并非易事,而Spark是一種大規(guī)模、快速計算的集群平臺,運用Spark中的MLlib庫就可以輕松的構建分布式機器學習算法。

一、ML管道

MLlib對用于機器學習算法的API進行了標準化,從而使將多種算法組合到單個管道或工作流中變得更加容易。Spark中的管道概念主要受scikit-learn項目的啟發(fā),包含以下幾塊:

  • DataFrame:此ML API使用DataFrameSpark SQL作為ML數據集,可以保存各種數據類型。例如,DataFrame可能有不同的列,用于存儲文本特征向量,真實標簽預測值。

  • Transformer:是一種算法,其可以將一個DataFrame到另一個DataFrame。例如,Transformer可以將具有特征的DataFrame轉換為具有預測的DataFrame。

  • Estimator:是一種算法,可以適合DataFrame來產生Transformer。例如,學習算法是在上Estimator進行訓練DataFrame并生成模型的算法。

  • Parameter:所有Transformer和Estimator現(xiàn)在共享一個用于指定參數的通用API。

Pipeline被指定為一個階段序列,每個階段是一個Transformer或一個Estimator。這些階段按順序運行,并且輸入DataFrame在通過每個階段時都會進行轉換。對于Transformer階段,該transform()方法在上調用DataFrame。對于Estimator階段,將fit()調用方法來生成Transformer(成為PipelineModel或一部分Pipeline)Transformer的transform()方法,并且在上調用的方法DataFrame(如下圖)。

二、提取轉換和特征選擇

1.特征提取

在Spark中特征提取主要有四種方案:

  • TF-IDF:術語頻率逆文檔頻率(TF-IDF) 是一種特征向量化方法,廣泛用于文本挖掘中,以反映術語對語料庫中文檔的重要性。

  • Word2Vec:Word2Vec是一個Estimator包含代表文檔的單詞序列并訓練一個的 Word2VecModel。該模型將每個單詞映射到唯一的固定大小的向量。

  • CountVectorizer:CountVectorizer和CountVectorizerModel旨在幫助轉換文本文檔的集合令牌計數的載體。當先驗詞典不可用時,CountVectorizer可以用作Estimator提取詞匯表并生成CountVectorizerModel。

  • FeatureHasher:特征哈希將一組分類或數字特征投影到指定維度的特征向量中(通常大大小于原始特征空間的特征向量)。這是通過使用哈希技巧 將特征映射到特征向量中的索引來完成的。

2.特征轉換

Spark中的特征轉換支持方法非常多,有Tokenizer、去除停用詞、n-gram、二值化、多項式展開、余弦變換、字符串索引、OneHot編碼、向量索引、特征交叉、歸一化、標準化、SQL轉換、離散化處理等等,在此用PCA方法舉例,其余方法在此不做贅述。

3.特征選擇

  • VectorSlicer:是一個采用特征向量并輸出帶有原始特征子數組的新特征向量的轉換器。這對于從向量列中提取特征很有用。VectorSlicer接受具有指定索引的向量列,然后輸出一個新的向量列,其值通過這些索引選擇。

  • RFormula:由R模型公式指定的列。當前,我們支持R運算符的有限子集,包括“?”,“?!保埃骸?,“ +”和“-”。

  • ChiSqSelector:代表Chi-Squared特征選擇。它對具有分類特征的標記數據進行操作。ChiSqSelector使用 卡方獨立性檢驗來決定選擇哪些功能。

三、分布式機器學習算法

1.分類

分類是一種重要的機器學習和數據挖掘技術。分類的目的是根據數據集的特點構造一個分類函數或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的一種技術。Spark MLlib庫中支持的分類算法有限,大致如下:

  • 邏輯回歸

  • 決策樹分類器

  • 隨機森林分類器

  • 梯度提升樹分類器

  • 多層感知器分類器

  • 線性支持向量機

  • 樸素貝葉斯

2.回歸

Spark回歸分析與分類相似,大致支持如下算法:

  • 線性回歸

  • 決策樹回歸

  • 隨機森林回歸

  • 梯度提升樹回歸

  • 保序回歸

3.聚類

聚類是一個無監(jiān)督的學習問題,我們的目標是基于某種相似性概念將實體子集彼此分組。 聚類通常用于探索性分析和/或作為分層監(jiān)督學習管道的組成部分(在該學習管道中,針對每個聚類訓練不同的分類器或回歸模型)。spark.mllib軟件包支持以下模型:

  • K均值

  • 高斯混合(GM)

  • 功率迭代聚類(PIC)

  • 潛在狄利克雷分配(LDA)

4.協(xié)同過濾

在許多實際使用案例中,通常只能訪問隱式反饋(例如,視圖,點擊,購買,喜歡,分享等)。用于spark.ml處理此類數據的方法來自隱式反饋數據集的協(xié)同過濾。

5.關聯(lián)規(guī)則挖掘

挖掘關聯(lián)項、項集、子序列或其他子結構通常是分析大規(guī)模數據集的第一步,而這是多年來數據挖掘中的活躍研究主題。我們向用戶推薦Wikipedia的關聯(lián)規(guī)則學習, 以獲取更多信息。

四、模型選擇和交叉驗證

1.模型選擇

ML中的一項重要任務是模型選擇,或使用數據為給定任務找到最佳模型或參數??梢葬槍?strong>單個Estimator例如LogisticRegression或針對整個Pipeline進行調整,包括多個算法,功能化和其他步驟。用戶可以Pipeline一次調整一個整體,而不必分別調整每個元素Pipeline。

2.交叉驗證

交叉驗證(CrossValidator)是在給定的建模樣本中,拿出大部分樣本進行建模型,留小部分樣本用剛建立的模型進行預測,并求這小部分樣本的預報誤差,記錄它們的平方加和。確定ParamMap最佳值后,CrossValidator最后使用Estimator的最佳值ParamMap和整個數據集重新擬合。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
深入理解XGBoost:分布式實現(xiàn)
Spark 2.x 機器學習實戰(zhàn)(算法篇:基于Kaggle競賽數據集,六大算法模型構建)
Apache Spark 1.5新特性介紹
揭秘“21世紀最性感的職業(yè)”:數學、編程、溝通和商業(yè)技能一個都不能少!
你必須要了解的大數據潮流下的機器學習及應用場景
Spark MLlib 1.6
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服