精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

干貨分享:數(shù)據(jù)挖掘淺談

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

編輯導讀:數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。本文作者圍繞數(shù)據(jù)挖掘展開分析,希望對你有幫助。

干貨分享:數(shù)據(jù)挖掘淺談

豆豆和花花開了一家鮮花店。豆豆跟花花說:“情人節(jié)快到了,咱店都需要準備哪類情人節(jié)花束?每類花束需要準備多少?……” 花花回答道,“根據(jù)顧客分類,大致分為自信示愛、甜蜜上心、星河摯愛等共8類。前三類去年賣地特別好,今年需要提供比上年多30%的花束……”。豆豆說:“鮮花的保質期特別短,所以,多購買的鮮花只能從30%降至10%,既可以控制成本,又可以積攢口碑……”

在上面案例中,花花制定采購方案首先進行顧客分類,在數(shù)據(jù)挖掘領域,可以使用無監(jiān)督模型(例如k-means),也可以使用分類模型(例如KNN、決策樹、邏輯回歸等)將用戶分群。花花預估“今年需要提供比上一年高30%的花束”,在數(shù)據(jù)挖掘領域,可以使用回歸模型進行預測。

接下來,筆者就跟你淺談一下數(shù)據(jù)挖掘。

01?機器學習與數(shù)據(jù)挖掘的區(qū)別與聯(lián)系

1.1?概念

首先,我們對機器學習和數(shù)據(jù)挖掘的定義做一下總結:數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。換句話說,數(shù)據(jù)挖掘試圖從海量數(shù)據(jù)中找到有用的信息。

機器學習是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預測的算法。也就是說,機器學習就是將現(xiàn)實生活中的問題抽象成數(shù)學模型,利用數(shù)學方法對這個數(shù)學模型進行求解,從而解決現(xiàn)實生活中的問題。

1.2?聯(lián)系與區(qū)別

1.2.1 聯(lián)系 數(shù)據(jù)挖掘受到很多學科領域的影響,其中包括數(shù)據(jù)庫、機器學習、統(tǒng)計學、領域知識及模式識別等領域。簡而言之,對于數(shù)據(jù)挖掘,數(shù)據(jù)庫提供數(shù)據(jù)存儲技術,機器學習和統(tǒng)計學提供數(shù)據(jù)分析技術。

干貨分享:數(shù)據(jù)挖掘淺談

統(tǒng)計學經(jīng)常忽視實際的效用醉心于理論的優(yōu)美,因此,統(tǒng)計學提供的大部分技術都要在機器學習領域進一步研究,變成機器學習算法后才能進入數(shù)據(jù)挖掘領域。從這方面來講,統(tǒng)計學主要是通過機器學習來對數(shù)據(jù)挖掘發(fā)揮影響,而機器學習和數(shù)據(jù)庫則是數(shù)據(jù)挖掘的兩大支撐。簡言之, 機器學習為數(shù)據(jù)挖掘提供解決實際問題的方法,數(shù)據(jù)挖掘中算法的成功應用,說明了機器學習對算法的研究具有實際運用價值。

1.2.2 區(qū)別

從數(shù)據(jù)分析來講,大多數(shù)數(shù)據(jù)挖掘技術都是來自于機器學習,但是機器學習研究不把海量數(shù)據(jù)作為處理對象,因此,數(shù)據(jù)挖掘需要對算法進行改造,使得算法性能和空間占用達到實用的地步。同時,數(shù)據(jù)挖掘還有自身獨特的內容——關聯(lián)分析。

至于,數(shù)據(jù)挖掘和模式識別,從概念上區(qū)分,數(shù)據(jù)挖掘重在發(fā)現(xiàn)知識,模式識別重在認識事物。

簡言之, 機器學習注重相關機器學習算法的理論研究和算法提升,更偏向理論和學術;數(shù)據(jù)挖掘注重運用算法或者其他某種模式解決實際問題,更偏向實踐和運用。

02?機器學習的分類

機器學習的方法是基于數(shù)據(jù)產(chǎn)生的“模型”的算法,也稱為“學習算法”。機器學習方法包括有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和強化學習。

干貨分享:數(shù)據(jù)挖掘淺談

2.1?有監(jiān)督學習

有監(jiān)督學習指對數(shù)據(jù)的若干特征與標簽之間的關聯(lián)性進行建模的過程。它的主要目標是從有標簽的訓練數(shù)據(jù)中學習模型,以便對未知或未來的數(shù)據(jù)做出預測。以用戶是否會復購鮮花為例,可以采用監(jiān)督學習算法在打過標簽的(正確標識是與否)數(shù)據(jù)上訓練模型,然后用該模型來預測新用戶是否屬于粘性用戶。

標簽為離散值的監(jiān)督學習任務稱為「分類任務」,例如上述的用戶是否會復購鮮花示例。常用的分類模型包括KNN、決策樹、邏輯回歸等。

標簽為連續(xù)值的監(jiān)督學習任務稱為「回歸任務」,例如根據(jù)歷史數(shù)據(jù)預測未來的銷售額。常用的回歸模型為線性回歸、非線性回歸和嶺回歸等。

注意:機器學習領域的預測變量通常稱為特征,而響應變量通常稱為目標變量或標簽。

2.2?無監(jiān)督學習

無監(jiān)督學習指對不帶任何標簽的數(shù)據(jù)特征進行建模,通常被看成是一種“讓數(shù)據(jù)自己介紹自己”的過程。也就是說,用無監(jiān)督學習,可以在沒有目標變量或獎勵函數(shù)的指導下,探索數(shù)據(jù)結構來提取有意義的信息。這類模型包括「聚類任務」和「降維任務」。其中,聚類算法可以將數(shù)據(jù)分成不同的組別,而降維算法追求用更簡潔的方式表現(xiàn)數(shù)據(jù)。

2.3?半監(jiān)督學習

半監(jiān)督學習方法介于有監(jiān)督學習和無監(jiān)督學習之間,通常在數(shù)據(jù)不完整時使用。

2.4?強化學習

強化學習不同于監(jiān)督學習,它將學習看作是試探評價過程,以“試錯”的方式進行學習,并與環(huán)境交互已獲得獎懲指導行為,以其作為評價。也就是說,強調如何基于環(huán)境而行動,以取得最大化的預期利益。此時,系統(tǒng)靠自身的狀態(tài)和動作進行學習,從而改進行動方案以適應環(huán)境。

03?數(shù)據(jù)挖掘建模過程

從數(shù)據(jù)本身來考慮,數(shù)據(jù)挖掘建模過程通常需要有理解商業(yè)、理解數(shù)據(jù)、準備數(shù)據(jù)、建模型、評估模型和部署模型6個步驟。

3.1?理解商業(yè)

理解商業(yè)算是數(shù)據(jù)挖掘中最重要的一部分,在這個階段我們需要明確商業(yè)目標、評估商業(yè)環(huán)境、確定挖掘目標以及產(chǎn)生一個項目計劃。簡單地說,就是針對不同的業(yè)務場景,需要明白挖掘的目標是什么,需要達到什么樣的效果。用大白話講,就是你到底想干啥。

仍以鮮花店為例,為了提高銷售額,店員可以幫助客戶快速找到他感興趣的花束,同時在保證用戶體驗的情況下,為其附加一個可接受的小飾品,比如花瓶、零食、香水等。

3.2?理解數(shù)據(jù)

數(shù)據(jù)是挖掘過程的“原材料”,在數(shù)據(jù)理解過程中我們需要了解都有哪些數(shù)據(jù),這些數(shù)據(jù)的特征是什么,可以通過對數(shù)據(jù)進行描述分析得到數(shù)據(jù)的特點。其中,了解有哪些數(shù)據(jù)尤為重要,其決定了后期工作進展的順利程度。比如和花店有關的數(shù)據(jù):

1)鮮花數(shù)據(jù):鮮花名稱、鮮花品類、采購時間、采購數(shù)量、采購金額等。

2)經(jīng)營數(shù)據(jù):經(jīng)營時間、預定時間、預定品類、預定人數(shù)等。

3)其他數(shù)據(jù):是否為節(jié)假日、用戶口碑、競爭對手動向、天氣情況等。

3.3?準備數(shù)據(jù)

在數(shù)據(jù)準備階段我們需要對數(shù)據(jù)作出清洗、重建、合并等操作。選出要進行分析的數(shù)據(jù),并對不符合模型輸入要求的數(shù)據(jù)進行規(guī)范化操作。主要是為建模準備數(shù)據(jù),可以從數(shù)據(jù)預處理、特征提取、特征選擇等幾方面出發(fā),整理如下:1)缺失值:由于個人隱私或設備故障導致某些觀測值在某些緯度上的漏缺,通常稱為缺失值。缺失值存在可能會導致模型結果的錯誤,所以針對缺失值可以考慮刪除、眾數(shù)或均值填充等解決。

2)異常值:由于遠離正常樣本的觀測點,它們的存在同樣會對模型的準確型造成影響。可以通過象限圖或3sigma(正態(tài)分布)進行判斷,如果是,可以考慮刪除或單獨處理。

3)量綱不一致:模型容易受到不同量綱的影響,因此需要通過標準化方法(通常采用歸一化、Normalization之類的方法)將數(shù)據(jù)進行轉換。

4)維度災難:當數(shù)據(jù)集中包含上百乃至上千萬的變量時,往往會提高模型的復雜度,從而影響模型的運行效率,所以需要采用方差分析、相關分析、主成分分析等手段實現(xiàn)降維。

3.4?建模型

一般情況下,預處理將占整個數(shù)據(jù)挖掘流程80%左右的時間。在保證數(shù)據(jù)“干凈”的前提下,需要選出合適的模型。以下是常用的機器算法。1)分類模型:KNN、決策樹、邏輯回歸等。

2)回歸模型:線性回歸、嶺回歸、支持向量回歸等。

3)無監(jiān)督模型:k-means等。

數(shù)據(jù)挖掘中大部分模型都不是專為解決某個問題而特制的,模型之間相互不排斥。不能說一個問題只能采用某個模型,其他的都不能用。通常來說,針對某個數(shù)據(jù)分析項目,并不存在所謂的最好的模型,在最終決定選擇哪種模型之前,各種模型都嘗試一下,然后再選取一個較好的。各種模型在不同的環(huán)境中,優(yōu)劣會有所不同。

3.5?評估模型

評估階段主要是對建模結果進行評估,目的是選出最佳的模型,讓這個模型能夠更好地反映數(shù)據(jù)的真實性。并不是每一次建模都能符合我們的目標,對效果較差的結果分析原因,偶爾也會返回前面的步驟對挖掘過程重新定義。比如,對于決策樹或者邏輯回歸,即使在訓練集中表現(xiàn)良好,但在測試集中結果較差,說明該模型存在過擬合。

3.6?模型部署

建立的模型需要解決實際的問題,它還包括了監(jiān)督、產(chǎn)生報表和重新評估模型等過程。很多時候建模一般使用spss、python、r等,在建模的過程中只考慮模型的可用性,在生產(chǎn)環(huán)境中通常會利用Java或C++等語言將模型改寫,從而提高運行性能。

祝大家情人節(jié)快樂!

?

作者:貓耳朵,專注于數(shù)據(jù)分析;“數(shù)據(jù)人創(chuàng)作者聯(lián)盟”成員。

本文由@一個數(shù)據(jù)人的自留地 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自 Pexels,基于CC0協(xié)議。

給作者打賞,鼓勵TA抓緊創(chuàng)作!

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 哈尔滨发电机,黑龙江柴油发电机组-北方星光 | 胶水,胶粘剂,AB胶,环氧胶,UV胶水,高温胶,快干胶,密封胶,结构胶,电子胶,厌氧胶,高温胶水,电子胶水-东莞聚力-聚厉胶粘 | 不锈钢搅拌罐_高速搅拌罐厂家-无锡市凡格德化工装备科技有限公司 | 【铜排折弯机,钢丝折弯成型机,汽车发泡钢丝折弯机,线材折弯机厂家,线材成型机,铁线折弯机】贝朗折弯机厂家_东莞市贝朗自动化设备有限公司 | 高低温试验房-深圳高低温湿热箱-小型高低温冲击试验箱-爱佩试验设备 | 深圳宣传片制作_产品视频制作_深圳3D动画制作公司_深圳短视频拍摄-深圳市西典映画传媒有限公司 | 吉林污水处理公司,长春工业污水处理设备,净水设备-长春易洁环保科技有限公司 | 英语词典_成语词典_日语词典_法语词典_在线词典网 | 卫生型双针压力表-高温防腐差压表-安徽康泰电气有限公司 | 手持式3d激光扫描仪-便携式三维立体扫描仪-北京福禄克斯 | 高温链条油|高温润滑脂|轴承润滑脂|机器人保养用油|干膜润滑剂-东莞卓越化学 | 跨境物流_美国卡派_中大件运输_尾程派送_海外仓一件代发 - 广州环至美供应链平台 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 旋振筛|圆形摇摆筛|直线振动筛|滚筒筛|压榨机|河南天众机械设备有限公司 | 书法培训-高考书法艺考培训班-山东艺霖书法培训凭实力挺进央美 | UV固化机_UVLED光固化机_UV干燥机生产厂家-上海冠顶公司专业生产UV固化机设备 | 制丸机,小型中药制丸机,全自动制丸机价格-甘肃恒跃制药设备有限公司 | 游泳池设计|设备|配件|药品|吸污机-东莞市太平洋康体设施有限公司 | 临海涌泉蜜桔官网|涌泉蜜桔微商批发代理|涌泉蜜桔供应链|涌泉蜜桔一件代发 | 郑州墨香品牌设计公司|品牌全案VI设计公司| 糖衣机,除尘式糖衣机,全自动糖衣机,泰州市长江制药机械有限公司 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 短信营销平台_短信群发平台_106短信发送平台-河南路尚 | 手持式3d激光扫描仪-便携式三维立体扫描仪-北京福禄克斯 | 东莞螺杆空压机_永磁变频空压机_节能空压机_空压机工厂批发_深圳螺杆空压机_广州螺杆空压机_东莞空压机_空压机批发_东莞空压机工厂批发_东莞市文颖设备科技有限公司 | 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 营养师网,营养师考试时间,报名入口—网站首页 | 一体化预制泵站-一体化提升泵站-一体化泵站厂家-山东康威环保 | 心得体会网_心得体会格式范文模板 | 干式磁选机_湿式磁选机_粉体除铁器-潍坊国铭矿山设备有限公司 | 气弹簧定制-气动杆-可控气弹簧-不锈钢阻尼器-工业气弹簧-可调节气弹簧厂家-常州巨腾气弹簧供应商 | 进口试验机价格-进口生物材料试验机-西安卡夫曼测控技术有限公司 | 钢衬四氟管道_钢衬四氟直管_聚四氟乙烯衬里管件_聚四氟乙烯衬里管道-沧州汇霖管道科技有限公司 | 紫外可见光分光度计-紫外分光度计-分光光度仪-屹谱仪器制造(上海)有限公司 | 400电话_400电话申请_888元包年_400电话办理服务中心_400VIP网 | 水质传感器_水质监测站_雨量监测站_水文监测站-山东水境传感科技有限公司 | 发电机组|柴油发电机组-批发,上柴,玉柴,潍柴,康明斯柴油发电机厂家直销 | 不锈钢复合板|钛复合板|金属复合板|南钢集团安徽金元素复合材料有限公司-官网 | 液压升降货梯_导轨式升降货梯厂家_升降货梯厂家-河南东圣升降设备有限公司 | 塑料瓶罐_食品塑料瓶_保健品塑料瓶_调味品塑料瓶–东莞市富慷塑料制品有限公司 | 中国品牌门窗网_中国十大门窗品牌_著名门窗品牌 | 订做不锈钢_不锈钢定做加工厂_不锈钢非标定制-重庆侨峰金属加工厂 |