精准猎取科技资讯,天堂视频在线观看,高效阅读科技新闻_黄色av网站在线免费观看_科技猎

產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個(gè)廣告,點(diǎn)擊進(jìn)來(lái)看看。  
自然語(yǔ)言處理,顧名思義即自然語(yǔ)言處理的技術(shù),通常用縮寫NLP指代。各類產(chǎn)品經(jīng)理日常的工作中,會(huì)遇到大量自然語(yǔ)言處理的應(yīng)用場(chǎng)景。以智能推薦為例,在待推薦物文本分類、主題分類等場(chǎng)景中都會(huì)用到。本篇以產(chǎn)品經(jīng)理的視角,談?wù)勅绾稳腴T自然語(yǔ)言處理。

統(tǒng)計(jì)模型

很多大牛對(duì)人工智能的抨擊在于,認(rèn)為人工智能只是統(tǒng)計(jì)學(xué),并不是真正的具有「智能」。在當(dāng)前「弱人工智能」的時(shí)代背景下,學(xué)習(xí)統(tǒng)計(jì)模型仍然有非常重要的價(jià)值。

拿經(jīng)常用于分類場(chǎng)景的貝葉斯模型為例,在已經(jīng)拿到用于訓(xùn)練集的語(yǔ)料中,可以通過(guò)統(tǒng)計(jì)得出A出現(xiàn)的概率、B出現(xiàn)的概率、在A出現(xiàn)的前提下B出現(xiàn)的概率,計(jì)算如果B出現(xiàn)同時(shí)A出現(xiàn)的概率(即給定B樣本計(jì)算出現(xiàn)A的概率),就可以直接從前面三個(gè)統(tǒng)計(jì)概率計(jì)算得出。
產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)? 當(dāng)然以上貝葉斯模型成立并且表現(xiàn)良好的前提是數(shù)據(jù)量足夠大,滿足大數(shù)定律。不難發(fā)現(xiàn)統(tǒng)計(jì)模型的精髓在于,假設(shè)數(shù)據(jù)量足夠大后,可以用已有樣本的統(tǒng)計(jì)情況,來(lái)做判別或預(yù)測(cè)。

閉環(huán)流程

NLP技術(shù)應(yīng)用場(chǎng)景廣泛且松散,且在很多情況下,作為中間處理技術(shù)流程,不被最終用戶所感知。再加上近些年新的自然語(yǔ)言處理技術(shù)不斷出現(xiàn),給想入門自然語(yǔ)言處理的產(chǎn)品經(jīng)理眼花繚亂,不知如何入手的困惑。

入門自然語(yǔ)言處理也需要講究MVP,以最小可行性的閉環(huán),建立起初步認(rèn)知,再不斷擴(kuò)展和豐富NLP的知識(shí)體系,逐步建立大的框架和認(rèn)知。

通常的自然語(yǔ)言處理任務(wù)可從「分詞」—>「構(gòu)建特征」—>「訓(xùn)練模型」—>「分類或預(yù)測(cè)應(yīng)用」。

以上流程中,除了分詞外,與機(jī)器學(xué)習(xí)通常流程一樣。英文一個(gè)個(gè)單詞本身就是分開的,是不需要分詞的。但對(duì)于中文來(lái)講,詞與詞之間是連接在一起的,需要將文本內(nèi)容,切分成一個(gè)個(gè)詞再處理。

完成分詞后,計(jì)算機(jī)無(wú)法直接理解漢字,需要通過(guò)將一個(gè)個(gè)詞,編碼成計(jì)算機(jī)可以理解的數(shù)字再做處理,這個(gè)階段即構(gòu)建特征階段。

特征完成后,再根據(jù)自然語(yǔ)言處理任務(wù)類型,決定采用哪種算法訓(xùn)練模型,最后將訓(xùn)練好的模型應(yīng)用于特定的分類或預(yù)測(cè)任務(wù)上。一個(gè)自然語(yǔ)言處理任務(wù)就完成了。

標(biāo)注與預(yù)處理

前幾年從事的智能推薦產(chǎn)品中,推薦系統(tǒng)本身以CTR作為優(yōu)化目標(biāo),實(shí)際是將點(diǎn)擊與否作為label,相當(dāng)于用戶幫著做了分布式的標(biāo)注工作。

傳統(tǒng)基于統(tǒng)計(jì)的自然語(yǔ)言處理任務(wù)中,大部分任務(wù)類型是有監(jiān)督學(xué)習(xí),需要人在已有語(yǔ)料上做大量的標(biāo)注工作,才能保證任務(wù)的正常進(jìn)行。

例如情感識(shí)別是否為正向情感,就需要人在語(yǔ)料上,將一條條信息標(biāo)出是否為正向情感。再將此語(yǔ)料作為訓(xùn)練集訓(xùn)練模型,生成情感識(shí)別的分類模型用于情感識(shí)別。

文檔的預(yù)處理通常是將拿到的語(yǔ)料做去除標(biāo)點(diǎn)符號(hào)、停用詞、數(shù)字等處理,去除自然語(yǔ)言無(wú)關(guān)內(nèi)容,加快計(jì)算機(jī)計(jì)算和模型生成速度。

在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。

常見(jiàn)任務(wù)及算法原理

自然語(yǔ)言處理通常有以下應(yīng)用場(chǎng)景:分詞、詞性標(biāo)注、主題識(shí)別、情感識(shí)別、文本分類、機(jī)器翻譯等。下面將主要應(yīng)用及背后算法原理作簡(jiǎn)要介紹。

有監(jiān)督的分類問(wèn)題。無(wú)論情感識(shí)別還是垃圾郵件分類,本質(zhì)上都可以轉(zhuǎn)化為幾個(gè)目標(biāo)類型的分類問(wèn)題。按照貝葉斯公式的邏輯,將已有語(yǔ)料數(shù)據(jù)進(jìn)行類型標(biāo)注,基于統(tǒng)計(jì)模型的邏輯,訓(xùn)練得到分類模型,將待識(shí)別內(nèi)容通過(guò)模型計(jì)算打分,根據(jù)閾值即可完成識(shí)別。例如二分類的情感識(shí)別,可以將0-0.5區(qū)間歸為消極情感,0.5-1區(qū)間歸為積極情感。多分類則是計(jì)算待分類樣本離哪個(gè)區(qū)間更近,即識(shí)別為哪種類型。

無(wú)監(jiān)督的分類問(wèn)題。自然語(yǔ)言處理中,經(jīng)常會(huì)有主題識(shí)別任務(wù),這類任務(wù)通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無(wú)監(jiān)督學(xué)習(xí)自動(dòng)完成按照主題的詞聚類。由于是無(wú)監(jiān)督學(xué)習(xí),需要根據(jù)實(shí)際情況指定學(xué)習(xí)出的主題個(gè)數(shù),最終選擇主題個(gè)數(shù)最合理的結(jié)果。依賴人的主觀判斷和理解一系列詞背后組成的主題。

生成問(wèn)題。生成問(wèn)題常見(jiàn)的有文本糾錯(cuò)、詞生成、句子生成、機(jī)器翻譯等。生成問(wèn)題從統(tǒng)計(jì)學(xué)邏輯上講,是基于已有語(yǔ)料的統(tǒng)計(jì),計(jì)算出接下來(lái)要生成內(nèi)容的概率。拿機(jī)器翻譯舉例,需要事先準(zhǔn)備好中英文對(duì)照的大量語(yǔ)料,基于語(yǔ)料,機(jī)器學(xué)習(xí)到中英文詞對(duì)照、短語(yǔ)對(duì)照的知識(shí),最終在翻譯場(chǎng)景下,輸出中文或英文相應(yīng)的翻譯內(nèi)容。

再拿隱馬爾可夫模型做詞性標(biāo)注舉例,基于已經(jīng)標(biāo)注的語(yǔ)料,隱馬爾可夫模型可以學(xué)習(xí)到詞與詞之間詞性的狀態(tài)轉(zhuǎn)移概率,基于這個(gè)概率可以計(jì)算出一個(gè)詞屬于哪種詞性。

深度學(xué)習(xí)的應(yīng)用。CNN構(gòu)建的神經(jīng)網(wǎng)絡(luò),比較適合解決NLP分類問(wèn)題,但由于沒(méi)有記憶,無(wú)法解決生成問(wèn)題。RNN相較于CNN可以解決一定長(zhǎng)度記憶問(wèn)題,適合解決NLP領(lǐng)域一定長(zhǎng)度的生成問(wèn)題,例如詞生成,但無(wú)法保留長(zhǎng)期記憶。LSTM具有長(zhǎng)期記憶的手段,可以做生成句子的任務(wù)。

NLP應(yīng)用價(jià)值

文本是最常見(jiàn)的生產(chǎn)資料,產(chǎn)品經(jīng)理學(xué)習(xí)NLP的原理及應(yīng)用,可以開闊解決問(wèn)題的視野。

拿在線教育行業(yè)舉例,利用自然語(yǔ)言處理能力,可以自動(dòng)識(shí)別出學(xué)生評(píng)論的情感傾向,可以輔助老師進(jìn)行作文批改、自動(dòng)出題、自動(dòng)解題。

不難看出,自然語(yǔ)言處理的應(yīng)用場(chǎng)景,并非人做不了,而是可以替代人類的手工勞動(dòng),大大提升任務(wù)的效率,將人解放出來(lái),做更有價(jià)值的工作。

以上就是“產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?”的內(nèi)容了,如果你還想了解其他相關(guān)內(nèi)容,可以來(lái) 產(chǎn)品壹佰 官方網(wǎng)站。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 盘扣式脚手架-附着式升降脚手架-移动脚手架,专ye承包服务商 - 苏州安踏脚手架工程有限公司 | 电动卫生级调节阀,电动防爆球阀,电动软密封蝶阀,气动高压球阀,气动对夹蝶阀,气动V型调节球阀-上海川沪阀门有限公司 | 翅片管散热器价格_钢制暖气片报价_钢制板式散热器厂家「河北冀春暖气片有限公司」 | 东莞动力锂电池保护板_BMS智能软件保护板_锂电池主动均衡保护板-东莞市倡芯电子科技有限公司 | 贝朗斯动力商城(BRCPOWER.COM) - 买叉车蓄电池上贝朗斯商城,价格更超值,品质有保障! | 电竞馆加盟,沈阳网吧加盟费用选择嘉棋电竞_售后服务一体化 | 泰国试管婴儿_泰国第三代试管婴儿_泰国试管婴儿费用/多少钱_孕泰来 | 工业胀紧套_万向节联轴器_链条-规格齐全-型号选购-非标订做-厂家批发价格-上海乙谛精密机械有限公司 | 耐压仪-高压耐压仪|徐吉电气 | 高温热泵烘干机,高温烘干热泵,热水设备机组_正旭热泵 | 底部填充胶_电子封装胶_芯片封装胶_芯片底部填充胶厂家-东莞汉思新材料 | 变频器维修公司_plc维修_伺服驱动器维修_工控机维修 - 夫唯科技 变位机,焊接变位机,焊接变位器,小型变位机,小型焊接变位机-济南上弘机电设备有限公司 | 仿真植物|仿真树|仿真花|假树|植物墙 - 广州天昆仿真植物有限公司 | Magnescale探规,Magnescale磁栅尺,Magnescale传感器,Magnescale测厚仪,Mitutoyo光栅尺,笔式位移传感器-苏州连达精密量仪有限公司 | 水质传感器_水质监测站_雨量监测站_水文监测站-山东水境传感科技有限公司 | 临时厕所租赁_玻璃钢厕所租赁_蹲式|坐式厕所出租-北京慧海通 | 咖啡加盟-咖啡店加盟-咖啡西餐厅加盟-塞纳左岸咖啡西餐厅官网 | 搅拌磨|搅拌球磨机|循环磨|循环球磨机-无锡市少宏粉体科技有限公司 | 金环宇|金环宇电线|金环宇电缆|金环宇电线电缆|深圳市金环宇电线电缆有限公司|金环宇电缆集团 | 写方案网_方案策划方案模板下载| 电缆桥架生产厂家_槽式/梯式_热镀锌线槽_广东东莞雷正电气 | 阜阳在线-阜阳综合门户| 福建省教师资格证-福建教师资格证考试网 | 单锥双螺旋混合机_双螺旋锥形混合机-无锡新洋设备科技有限公司 | 济南轻型钢结构/济南铁艺护栏/济南铁艺大门-济南燕翔铁艺制品有限公司 | 带锯机|木工带锯机圆木推台锯|跑车带锯机|河北茂业机械制造有限公司| | 螺杆式冷水机-低温冷水机厂家-冷冻机-风冷式-水冷式冷水机-上海祝松机械有限公司 | 东莞工作服_东莞工作服定制_工衣订做_东莞厂服 | 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 尚为传动-专业高精密蜗轮蜗杆,双导程蜗轮蜗杆,蜗轮蜗杆减速机,蜗杆减速机生产厂家 | 海外整合营销-独立站营销-社交媒体运营_广州甲壳虫跨境网络服务 焊管生产线_焊管机组_轧辊模具_焊管设备_焊管设备厂家_石家庄翔昱机械 | 卡诺亚轻高定官网_卧室系统_整家定制_定制家居_高端定制_全屋定制加盟_定制家具加盟_定制衣柜加盟 | 德国UST优斯特氢气检漏仪-德国舒赐乙烷检测仪-北京泽钏 | 陕西视频监控,智能安防监控,安防系统-西安鑫安5A安防工程公司 | 济南ISO9000认证咨询代理公司,ISO9001认证,CMA实验室认证,ISO/TS16949认证,服务体系认证,资产管理体系认证,SC食品生产许可证- 济南创远企业管理咨询有限公司 郑州电线电缆厂家-防火|低压|低烟无卤电缆-河南明星电缆 | 深圳高新投三江工业消防解决方案提供厂家_服务商_园区智慧消防_储能消防解决方案服务商_高新投三江 | 深圳市宏康仪器科技有限公司-模拟高空低压试验箱-高温防爆试验箱-温控短路试验箱【官网】 | 成都中天自动化控制技术有限公司 | 密封圈_泛塞封_格莱圈-[东莞市国昊密封圈科技有限公司]专注密封圈定制生产厂家 | 原子吸收设备-国产分光光度计-光谱分光光度计-上海光谱仪器有限公司 | 带式过滤机厂家_价格_型号规格参数-江西核威环保科技有限公司 |