精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

比起自然語(yǔ)言處理和自動(dòng)駕駛,這項(xiàng)技術(shù)可能賺錢(qián)更快

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  
比起自然語(yǔ)言處理和自動(dòng)駕駛,這項(xiàng)技術(shù)可能賺錢(qián)更快

當(dāng)有大企業(yè)為數(shù)據(jù)進(jìn)行爭(zhēng)論時(shí),我們?cè)僖淮胃锌當(dāng)?shù)據(jù)的價(jià)值。自從大數(shù)據(jù)一詞被提出之后,我們無(wú)時(shí)無(wú)刻不再提醒著自己,累積了越多的數(shù)據(jù),就越能手握金礦。在機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)開(kāi)始走向大眾視野之后,我們更加自豪,仿佛分分鐘能從自己的數(shù)據(jù)中誕生個(gè)什么算法。

事實(shí)上,針對(duì)于機(jī)器學(xué)習(xí)應(yīng)用范疇看來(lái),絕大部分企業(yè)所謂的大數(shù)據(jù),都只是一大堆占據(jù)著儲(chǔ)存空間的垃圾。

因?yàn)椋@些大數(shù)據(jù)都是未經(jīng)清洗、處理過(guò)的臟數(shù)據(jù),完全不足以用來(lái)訓(xùn)練算法模型。

今天就來(lái)談?wù)剻C(jī)器學(xué)習(xí)這一高級(jí)產(chǎn)業(yè)中的“苦力工種”——數(shù)據(jù)預(yù)處理。

拋開(kāi)盲目崇拜,我們其實(shí)知道,機(jī)器學(xué)習(xí)對(duì)于數(shù)據(jù)的依賴非常之深,同時(shí)對(duì)數(shù)據(jù)的要求也很高。和數(shù)據(jù)庫(kù)中的數(shù)據(jù)不同,現(xiàn)實(shí)生活中我們采集到的數(shù)據(jù)往往存在大量人為造成的異常和缺失,非常不利于算法模型的訓(xùn)練。

而對(duì)于數(shù)據(jù)的清洗、特征標(biāo)注等等,往往占據(jù)了一個(gè)項(xiàng)目七成的時(shí)間。

在分析了項(xiàng)目的具體需求之后,第一步就是數(shù)據(jù)的清洗。

數(shù)據(jù)清洗包含多種步驟,比如對(duì)異常值的處理、對(duì)缺失數(shù)據(jù)的處理和對(duì)重復(fù)數(shù)據(jù)的處理等等。

常用的辦法是將數(shù)據(jù)制成直方圖、點(diǎn)圖、箱型圖、Q-Q圖等等,從其中可以直觀的發(fā)現(xiàn)需要清理的數(shù)據(jù)。

比起自然語(yǔ)言處理和自動(dòng)駕駛,這項(xiàng)技術(shù)可能賺錢(qián)更快

如圖所示,遠(yuǎn)離群體的數(shù)據(jù)均為需要清理的數(shù)據(jù)。當(dāng)然,清理也不一定是刪除,可以根據(jù)實(shí)際情況選擇用平均值替代甚至不處理等等。

在經(jīng)歷了痛苦的去異常、去缺失、去重復(fù)、降噪音之后,我們得到的僅僅是一份沒(méi)有明顯錯(cuò)誤的原始數(shù)據(jù)。還要經(jīng)歷數(shù)據(jù)轉(zhuǎn)換、降維等等方式讓數(shù)據(jù)標(biāo)準(zhǔn)化,只保留我們所需要的維度。這樣一來(lái)才可以進(jìn)一步降低噪音,去除無(wú)關(guān)特征帶來(lái)的巨大計(jì)算量。

以上的步驟可以運(yùn)用于任何數(shù)據(jù)之上,像是在NLP中就要提取波形文件,去掉連接詞、分詞等等。至于在人臉識(shí)別中,則是將每個(gè)人的名字和對(duì)應(yīng)的照片標(biāo)注歸類,去掉混亂度較高的人。再提取圖片向量,一個(gè)人照片中向量的平均值即是他的特征。

總之,數(shù)據(jù)預(yù)處理工作的難度不大,但卻能把人折騰得欲仙欲死。

這也是為什么Apollo這樣的平臺(tái)會(huì)為人工智能創(chuàng)業(yè)者提供數(shù)據(jù)庫(kù),畢竟對(duì)于大多數(shù)中小企業(yè)來(lái)講,獲取數(shù)據(jù)雖然簡(jiǎn)單,對(duì)于數(shù)據(jù)的預(yù)處理卻是幾乎不可能完成的任務(wù)。而以谷歌、百度等為代表的大企業(yè),擁有足夠的人力和算力,能夠?qū)⒆约旱臄?shù)據(jù)妥善處理,甚至開(kāi)放組建生態(tài)力量。

除去與巨頭共舞,另外的選擇就是購(gòu)買(mǎi)第三方提供的數(shù)據(jù)庫(kù),可最大的問(wèn)題就是數(shù)據(jù)的真實(shí)性和實(shí)用性。糟糕數(shù)據(jù)庫(kù)帶來(lái)的結(jié)果,往往是算法在數(shù)據(jù)庫(kù)內(nèi)跑得風(fēng)生水起,一落地應(yīng)用就漏洞百出。而在資本的揠苗助長(zhǎng)下,大多數(shù)人都忙著鼓吹自己的算法模型而忽略了數(shù)據(jù)源頭問(wèn)題,最終就是將萬(wàn)丈高樓建立在沙地之上。

面對(duì)這種情況,最苦惱的就是那些還算不上BAT級(jí)別,但又有了足夠規(guī)模的互聯(lián)網(wǎng)企業(yè):他們擁有了足夠多的數(shù)據(jù),不屑于拿所謂的算法作為融資噱頭,而是真的想通過(guò)機(jī)器學(xué)習(xí)提升自身業(yè)務(wù)。可面對(duì)復(fù)雜的數(shù)據(jù)預(yù)處理工作,他們需要付出極大的人力成本。要是說(shuō)邀請(qǐng)第三方為其處理,恐怕又不放心自身數(shù)據(jù)的安全。

而這一切,不正是商機(jī)所在嗎?

在今年三月的谷歌云開(kāi)發(fā)者大會(huì)上,谷歌就發(fā)布了一項(xiàng)新服務(wù)—— Google Cloud Dataprep。它可以自動(dòng)檢索出數(shù)據(jù)中的異常值,用戶只要給出數(shù)據(jù)清理規(guī)則,整個(gè)過(guò)程中都不需要人工寫(xiě)代碼來(lái)干預(yù)。所以,用戶既可以簡(jiǎn)單的完成數(shù)據(jù)清理,又能很大程度上保證數(shù)據(jù)安全。

數(shù)據(jù)的預(yù)處理的確是機(jī)器學(xué)習(xí)中的“臟活累活”,但這不代表不能用技術(shù)的力量提高這部分工作的效率。相比遙遙無(wú)期的人工智能,有關(guān)數(shù)據(jù)預(yù)處理的需求已經(jīng)擺在了我們面前,并且每天都在擴(kuò)大。而專注于數(shù)據(jù)預(yù)處理垂直領(lǐng)域的技術(shù)服務(wù)商卻寥寥無(wú)幾。

所以,與其在NLP、自動(dòng)駕駛的紅海中被巨頭碾壓,不如換個(gè)角度,從現(xiàn)在就開(kāi)始想辦法服務(wù)那些渴望人工智能的企業(yè)。



本文被轉(zhuǎn)載1次

首發(fā)媒體 加速會(huì) | 轉(zhuǎn)發(fā)媒體

隨意打賞

自然語(yǔ)言處理技術(shù)公司人工智能自然語(yǔ)言處理nlp 自然語(yǔ)言處理nlp自然語(yǔ)言處理自動(dòng)駕駛技術(shù) 問(wèn)題自然語(yǔ)言處理技術(shù)自然語(yǔ)言處理算法自然語(yǔ)言處理自動(dòng)駕駛技術(shù)
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 航空障碍灯_高中低光强航空障碍灯_民航许可认证航空警示灯厂家-东莞市天翔航天科技有限公司 | 新疆乌鲁木齐网站建设-乌鲁木齐网站制作设计-新疆远璨网络 | 油冷式_微型_TDY电动滚筒_外装_外置式电动滚筒厂家-淄博秉泓机械有限公司 | 砍排机-锯骨机-冻肉切丁机-熟肉切片机-预制菜生产线一站式服务厂商 - 广州市祥九瑞盈机械设备有限公司 | hc22_hc22价格_hc22哈氏合金—东锜特殊钢| 原色会计-合肥注册公司_合肥代理记账公司_营业执照代办 | 自动售货机_无人售货机_专业的自动售货机运营商_免费投放售货机-广州富宏主官网 | 陶瓷加热器,履带式加热器-吴江市兴达电热设备厂 | 防潮防水通风密闭门源头实力厂家 - 北京酷思帝克门窗 | 伊卡洛斯软装首页-电动窗帘,别墅窗帘,定制窗帘,江浙沪1000+别墅窗帘案例 | 医学模型生产厂家-显微手术模拟训练器-仿真手术模拟训练系统-北京医教科技 | 深圳美安可自动化设备有限公司,喷码机,定制喷码机,二维码喷码机,深圳喷码机,纸箱喷码机,东莞喷码机 UV喷码机,日期喷码机,鸡蛋喷码机,管芯喷码机,管内壁喷码机,喷码机厂家 | 全自动包装机_灌装机生产厂家-迈驰包装设备有限公司 | 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 金属清洗剂,防锈油,切削液,磨削液-青岛朗力防锈材料有限公司 | 探伤仪,漆膜厚度测试仪,轮胎花纹深度尺厂家-淄博创宇电子 | 专业深孔加工_东莞深孔钻加工_东莞深孔钻_东莞深孔加工_模具深孔钻加工厂-东莞市超耀实业有限公司 | 卫生纸复卷机|抽纸机|卫生纸加工设备|做卫生纸机器|小型卫生纸加工需要什么设备|卫生纸机器设备多少钱一台|许昌恒源纸品机械有限公司 | 颗粒机,颗粒机组,木屑颗粒机-济南劲能机械有限公司 | 天津热油泵_管道泵_天津高温热油泵-天津市金丰泰机械泵业有限公司【官方网站】 | 广州番禺搬家公司_天河黄埔搬家公司_企业工厂搬迁_日式搬家_广州搬家公司_厚道搬迁搬家公司 | 【甲方装饰】合肥工装公司-合肥装修设计公司,专业从事安徽办公室、店面、售楼部、餐饮店、厂房装修设计服务 | Magnescale探规,Magnescale磁栅尺,Magnescale传感器,Magnescale测厚仪,Mitutoyo光栅尺,笔式位移传感器-苏州连达精密量仪有限公司 | 烟台金蝶财务软件,烟台网站建设,烟台网络推广 | 自恢复保险丝_贴片保险丝_力特保险丝_Littelfuse_可恢复保险丝供应商-秦晋电子 | 【ph计】|在线ph计|工业ph计|ph计厂家|ph计价格|酸度计生产厂家_武汉吉尔德科技有限公司 | 三氯异氰尿酸-二氯-三氯-二氯异氰尿酸钠-优氯净-强氯精-消毒片-济南中北_优氯净厂家 | 卸料器-卸灰阀-卸料阀-瑞安市天蓝环保设备有限公司 | 二手电脑回收_二手打印机回收_二手复印机回_硒鼓墨盒回收-广州益美二手电脑回收公司 | 闪蒸干燥机-喷雾干燥机-带式干燥机-桨叶干燥机-[常州佳一干燥设备] | 国际金融网_每日财经新资讯网 | 石家庄救护车出租_重症转院_跨省跨境医疗转送_活动赛事医疗保障_康复出院_放弃治疗_腾康26年医疗护送转诊团队 | 浙江工业冷却塔-菱电冷却塔厂家 - 浙江菱电冷却设备有限公司 | 电池高低温试验箱-气态冲击箱-双层电池防爆箱|简户百科 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 学生作文网_中小学生作文大全与写作指导| PVC快速门-硬质快速门-洁净室快速门品牌厂家-苏州西朗门业 | 沈阳楼承板_彩钢板_压型钢板厂家-辽宁中盛绿建钢品股份有限公司 轴承振动测量仪电箱-轴承测振动仪器-测试仪厂家-杭州居易电气 | nalgene洗瓶,nalgene量筒,nalgene窄口瓶,nalgene放水口大瓶,浙江省nalgene代理-杭州雷琪实验器材有限公司 | 船用锚链|专业锚链生产厂家|安徽亚太锚链制造有限公司 | 济南电缆桥架|山东桥架-济南航丰实业有限公司 |