產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?
自然語(yǔ)言處理,顧名思義即自然語(yǔ)言處理的技術(shù),通常用縮寫NLP指代。各類產(chǎn)品經(jīng)理日常的工作中,會(huì)遇到大量自然語(yǔ)言處理的應(yīng)用場(chǎng)景。以智能推薦為例,在待推薦物文本分類、主題分類等場(chǎng)景中都會(huì)用到。本篇以產(chǎn)品經(jīng)理的視角,談?wù)勅绾稳腴T自然語(yǔ)言處理。
統(tǒng)計(jì)模型
很多大牛對(duì)人工智能的抨擊在于,認(rèn)為人工智能只是統(tǒng)計(jì)學(xué),并不是真正的具有「智能」。在當(dāng)前「弱人工智能」的時(shí)代背景下,學(xué)習(xí)統(tǒng)計(jì)模型仍然有非常重要的價(jià)值。
拿經(jīng)常用于分類場(chǎng)景的貝葉斯模型為例,在已經(jīng)拿到用于訓(xùn)練集的語(yǔ)料中,可以通過(guò)統(tǒng)計(jì)得出A出現(xiàn)的概率、B出現(xiàn)的概率、在A出現(xiàn)的前提下B出現(xiàn)的概率,計(jì)算如果B出現(xiàn)同時(shí)A出現(xiàn)的概率(即給定B樣本計(jì)算出現(xiàn)A的概率),就可以直接從前面三個(gè)統(tǒng)計(jì)概率計(jì)算得出。
當(dāng)然以上貝葉斯模型成立并且表現(xiàn)良好的前提是數(shù)據(jù)量足夠大,滿足大數(shù)定律。不難發(fā)現(xiàn)統(tǒng)計(jì)模型的精髓在于,假設(shè)數(shù)據(jù)量足夠大后,可以用已有樣本的統(tǒng)計(jì)情況,來(lái)做判別或預(yù)測(cè)。
閉環(huán)流程
NLP技術(shù)應(yīng)用場(chǎng)景廣泛且松散,且在很多情況下,作為中間處理技術(shù)流程,不被最終用戶所感知。再加上近些年新的自然語(yǔ)言處理技術(shù)不斷出現(xiàn),給想入門自然語(yǔ)言處理的產(chǎn)品經(jīng)理眼花繚亂,不知如何入手的困惑。
入門自然語(yǔ)言處理也需要講究MVP,以最小可行性的閉環(huán),建立起初步認(rèn)知,再不斷擴(kuò)展和豐富NLP的知識(shí)體系,逐步建立大的框架和認(rèn)知。
通常的自然語(yǔ)言處理任務(wù)可從「分詞」—>「構(gòu)建特征」—>「訓(xùn)練模型」—>「分類或預(yù)測(cè)應(yīng)用」。
以上流程中,除了分詞外,與機(jī)器學(xué)習(xí)通常流程一樣。英文一個(gè)個(gè)單詞本身就是分開的,是不需要分詞的。但對(duì)于中文來(lái)講,詞與詞之間是連接在一起的,需要將文本內(nèi)容,切分成一個(gè)個(gè)詞再處理。
完成分詞后,計(jì)算機(jī)無(wú)法直接理解漢字,需要通過(guò)將一個(gè)個(gè)詞,編碼成計(jì)算機(jī)可以理解的數(shù)字再做處理,這個(gè)階段即構(gòu)建特征階段。
特征完成后,再根據(jù)自然語(yǔ)言處理任務(wù)類型,決定采用哪種算法訓(xùn)練模型,最后將訓(xùn)練好的模型應(yīng)用于特定的分類或預(yù)測(cè)任務(wù)上。一個(gè)自然語(yǔ)言處理任務(wù)就完成了。
標(biāo)注與預(yù)處理
前幾年從事的智能推薦產(chǎn)品中,推薦系統(tǒng)本身以CTR作為優(yōu)化目標(biāo),實(shí)際是將點(diǎn)擊與否作為label,相當(dāng)于用戶幫著做了分布式的標(biāo)注工作。
傳統(tǒng)基于統(tǒng)計(jì)的自然語(yǔ)言處理任務(wù)中,大部分任務(wù)類型是有監(jiān)督學(xué)習(xí),需要人在已有語(yǔ)料上做大量的標(biāo)注工作,才能保證任務(wù)的正常進(jìn)行。
例如情感識(shí)別是否為正向情感,就需要人在語(yǔ)料上,將一條條信息標(biāo)出是否為正向情感。再將此語(yǔ)料作為訓(xùn)練集訓(xùn)練模型,生成情感識(shí)別的分類模型用于情感識(shí)別。
文檔的預(yù)處理通常是將拿到的語(yǔ)料做去除標(biāo)點(diǎn)符號(hào)、停用詞、數(shù)字等處理,去除自然語(yǔ)言無(wú)關(guān)內(nèi)容,加快計(jì)算機(jī)計(jì)算和模型生成速度。
在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。
常見(jiàn)任務(wù)及算法原理
自然語(yǔ)言處理通常有以下應(yīng)用場(chǎng)景:分詞、詞性標(biāo)注、主題識(shí)別、情感識(shí)別、文本分類、機(jī)器翻譯等。下面將主要應(yīng)用及背后算法原理作簡(jiǎn)要介紹。
有監(jiān)督的分類問(wèn)題。無(wú)論情感識(shí)別還是垃圾郵件分類,本質(zhì)上都可以轉(zhuǎn)化為幾個(gè)目標(biāo)類型的分類問(wèn)題。按照貝葉斯公式的邏輯,將已有語(yǔ)料數(shù)據(jù)進(jìn)行類型標(biāo)注,基于統(tǒng)計(jì)模型的邏輯,訓(xùn)練得到分類模型,將待識(shí)別內(nèi)容通過(guò)模型計(jì)算打分,根據(jù)閾值即可完成識(shí)別。例如二分類的情感識(shí)別,可以將0-0.5區(qū)間歸為消極情感,0.5-1區(qū)間歸為積極情感。多分類則是計(jì)算待分類樣本離哪個(gè)區(qū)間更近,即識(shí)別為哪種類型。
無(wú)監(jiān)督的分類問(wèn)題。自然語(yǔ)言處理中,經(jīng)常會(huì)有主題識(shí)別任務(wù),這類任務(wù)通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無(wú)監(jiān)督學(xué)習(xí)自動(dòng)完成按照主題的詞聚類。由于是無(wú)監(jiān)督學(xué)習(xí),需要根據(jù)實(shí)際情況指定學(xué)習(xí)出的主題個(gè)數(shù),最終選擇主題個(gè)數(shù)最合理的結(jié)果。依賴人的主觀判斷和理解一系列詞背后組成的主題。
生成問(wèn)題。生成問(wèn)題常見(jiàn)的有文本糾錯(cuò)、詞生成、句子生成、機(jī)器翻譯等。生成問(wèn)題從統(tǒng)計(jì)學(xué)邏輯上講,是基于已有語(yǔ)料的統(tǒng)計(jì),計(jì)算出接下來(lái)要生成內(nèi)容的概率。拿機(jī)器翻譯舉例,需要事先準(zhǔn)備好中英文對(duì)照的大量語(yǔ)料,基于語(yǔ)料,機(jī)器學(xué)習(xí)到中英文詞對(duì)照、短語(yǔ)對(duì)照的知識(shí),最終在翻譯場(chǎng)景下,輸出中文或英文相應(yīng)的翻譯內(nèi)容。
再拿隱馬爾可夫模型做詞性標(biāo)注舉例,基于已經(jīng)標(biāo)注的語(yǔ)料,隱馬爾可夫模型可以學(xué)習(xí)到詞與詞之間詞性的狀態(tài)轉(zhuǎn)移概率,基于這個(gè)概率可以計(jì)算出一個(gè)詞屬于哪種詞性。
深度學(xué)習(xí)的應(yīng)用。CNN構(gòu)建的神經(jīng)網(wǎng)絡(luò),比較適合解決NLP分類問(wèn)題,但由于沒(méi)有記憶,無(wú)法解決生成問(wèn)題。RNN相較于CNN可以解決一定長(zhǎng)度記憶問(wèn)題,適合解決NLP領(lǐng)域一定長(zhǎng)度的生成問(wèn)題,例如詞生成,但無(wú)法保留長(zhǎng)期記憶。LSTM具有長(zhǎng)期記憶的手段,可以做生成句子的任務(wù)。
NLP應(yīng)用價(jià)值
文本是最常見(jiàn)的生產(chǎn)資料,產(chǎn)品經(jīng)理學(xué)習(xí)NLP的原理及應(yīng)用,可以開闊解決問(wèn)題的視野。
拿在線教育行業(yè)舉例,利用自然語(yǔ)言處理能力,可以自動(dòng)識(shí)別出學(xué)生評(píng)論的情感傾向,可以輔助老師進(jìn)行作文批改、自動(dòng)出題、自動(dòng)解題。
不難看出,自然語(yǔ)言處理的應(yīng)用場(chǎng)景,并非人做不了,而是可以替代人類的手工勞動(dòng),大大提升任務(wù)的效率,將人解放出來(lái),做更有價(jià)值的工作。
以上就是“產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?”的內(nèi)容了,如果你還想了解其他相關(guān)內(nèi)容,可以來(lái) 產(chǎn)品壹佰 官方網(wǎng)站。
統(tǒng)計(jì)模型
很多大牛對(duì)人工智能的抨擊在于,認(rèn)為人工智能只是統(tǒng)計(jì)學(xué),并不是真正的具有「智能」。在當(dāng)前「弱人工智能」的時(shí)代背景下,學(xué)習(xí)統(tǒng)計(jì)模型仍然有非常重要的價(jià)值。
拿經(jīng)常用于分類場(chǎng)景的貝葉斯模型為例,在已經(jīng)拿到用于訓(xùn)練集的語(yǔ)料中,可以通過(guò)統(tǒng)計(jì)得出A出現(xiàn)的概率、B出現(xiàn)的概率、在A出現(xiàn)的前提下B出現(xiàn)的概率,計(jì)算如果B出現(xiàn)同時(shí)A出現(xiàn)的概率(即給定B樣本計(jì)算出現(xiàn)A的概率),就可以直接從前面三個(gè)統(tǒng)計(jì)概率計(jì)算得出。

閉環(huán)流程
NLP技術(shù)應(yīng)用場(chǎng)景廣泛且松散,且在很多情況下,作為中間處理技術(shù)流程,不被最終用戶所感知。再加上近些年新的自然語(yǔ)言處理技術(shù)不斷出現(xiàn),給想入門自然語(yǔ)言處理的產(chǎn)品經(jīng)理眼花繚亂,不知如何入手的困惑。
入門自然語(yǔ)言處理也需要講究MVP,以最小可行性的閉環(huán),建立起初步認(rèn)知,再不斷擴(kuò)展和豐富NLP的知識(shí)體系,逐步建立大的框架和認(rèn)知。
通常的自然語(yǔ)言處理任務(wù)可從「分詞」—>「構(gòu)建特征」—>「訓(xùn)練模型」—>「分類或預(yù)測(cè)應(yīng)用」。
以上流程中,除了分詞外,與機(jī)器學(xué)習(xí)通常流程一樣。英文一個(gè)個(gè)單詞本身就是分開的,是不需要分詞的。但對(duì)于中文來(lái)講,詞與詞之間是連接在一起的,需要將文本內(nèi)容,切分成一個(gè)個(gè)詞再處理。
完成分詞后,計(jì)算機(jī)無(wú)法直接理解漢字,需要通過(guò)將一個(gè)個(gè)詞,編碼成計(jì)算機(jī)可以理解的數(shù)字再做處理,這個(gè)階段即構(gòu)建特征階段。
特征完成后,再根據(jù)自然語(yǔ)言處理任務(wù)類型,決定采用哪種算法訓(xùn)練模型,最后將訓(xùn)練好的模型應(yīng)用于特定的分類或預(yù)測(cè)任務(wù)上。一個(gè)自然語(yǔ)言處理任務(wù)就完成了。
標(biāo)注與預(yù)處理
前幾年從事的智能推薦產(chǎn)品中,推薦系統(tǒng)本身以CTR作為優(yōu)化目標(biāo),實(shí)際是將點(diǎn)擊與否作為label,相當(dāng)于用戶幫著做了分布式的標(biāo)注工作。
傳統(tǒng)基于統(tǒng)計(jì)的自然語(yǔ)言處理任務(wù)中,大部分任務(wù)類型是有監(jiān)督學(xué)習(xí),需要人在已有語(yǔ)料上做大量的標(biāo)注工作,才能保證任務(wù)的正常進(jìn)行。
例如情感識(shí)別是否為正向情感,就需要人在語(yǔ)料上,將一條條信息標(biāo)出是否為正向情感。再將此語(yǔ)料作為訓(xùn)練集訓(xùn)練模型,生成情感識(shí)別的分類模型用于情感識(shí)別。
文檔的預(yù)處理通常是將拿到的語(yǔ)料做去除標(biāo)點(diǎn)符號(hào)、停用詞、數(shù)字等處理,去除自然語(yǔ)言無(wú)關(guān)內(nèi)容,加快計(jì)算機(jī)計(jì)算和模型生成速度。
在完成以上處理后,可將文檔做分詞處理,再將詞作編碼處理即可。
常見(jiàn)任務(wù)及算法原理
自然語(yǔ)言處理通常有以下應(yīng)用場(chǎng)景:分詞、詞性標(biāo)注、主題識(shí)別、情感識(shí)別、文本分類、機(jī)器翻譯等。下面將主要應(yīng)用及背后算法原理作簡(jiǎn)要介紹。
有監(jiān)督的分類問(wèn)題。無(wú)論情感識(shí)別還是垃圾郵件分類,本質(zhì)上都可以轉(zhuǎn)化為幾個(gè)目標(biāo)類型的分類問(wèn)題。按照貝葉斯公式的邏輯,將已有語(yǔ)料數(shù)據(jù)進(jìn)行類型標(biāo)注,基于統(tǒng)計(jì)模型的邏輯,訓(xùn)練得到分類模型,將待識(shí)別內(nèi)容通過(guò)模型計(jì)算打分,根據(jù)閾值即可完成識(shí)別。例如二分類的情感識(shí)別,可以將0-0.5區(qū)間歸為消極情感,0.5-1區(qū)間歸為積極情感。多分類則是計(jì)算待分類樣本離哪個(gè)區(qū)間更近,即識(shí)別為哪種類型。
無(wú)監(jiān)督的分類問(wèn)題。自然語(yǔ)言處理中,經(jīng)常會(huì)有主題識(shí)別任務(wù),這類任務(wù)通常是采用LDA主題模型,核心邏輯是將文章劃分為「文檔」—「主題」—「詞」的三層邏輯,以無(wú)監(jiān)督學(xué)習(xí)自動(dòng)完成按照主題的詞聚類。由于是無(wú)監(jiān)督學(xué)習(xí),需要根據(jù)實(shí)際情況指定學(xué)習(xí)出的主題個(gè)數(shù),最終選擇主題個(gè)數(shù)最合理的結(jié)果。依賴人的主觀判斷和理解一系列詞背后組成的主題。
生成問(wèn)題。生成問(wèn)題常見(jiàn)的有文本糾錯(cuò)、詞生成、句子生成、機(jī)器翻譯等。生成問(wèn)題從統(tǒng)計(jì)學(xué)邏輯上講,是基于已有語(yǔ)料的統(tǒng)計(jì),計(jì)算出接下來(lái)要生成內(nèi)容的概率。拿機(jī)器翻譯舉例,需要事先準(zhǔn)備好中英文對(duì)照的大量語(yǔ)料,基于語(yǔ)料,機(jī)器學(xué)習(xí)到中英文詞對(duì)照、短語(yǔ)對(duì)照的知識(shí),最終在翻譯場(chǎng)景下,輸出中文或英文相應(yīng)的翻譯內(nèi)容。
再拿隱馬爾可夫模型做詞性標(biāo)注舉例,基于已經(jīng)標(biāo)注的語(yǔ)料,隱馬爾可夫模型可以學(xué)習(xí)到詞與詞之間詞性的狀態(tài)轉(zhuǎn)移概率,基于這個(gè)概率可以計(jì)算出一個(gè)詞屬于哪種詞性。
深度學(xué)習(xí)的應(yīng)用。CNN構(gòu)建的神經(jīng)網(wǎng)絡(luò),比較適合解決NLP分類問(wèn)題,但由于沒(méi)有記憶,無(wú)法解決生成問(wèn)題。RNN相較于CNN可以解決一定長(zhǎng)度記憶問(wèn)題,適合解決NLP領(lǐng)域一定長(zhǎng)度的生成問(wèn)題,例如詞生成,但無(wú)法保留長(zhǎng)期記憶。LSTM具有長(zhǎng)期記憶的手段,可以做生成句子的任務(wù)。
NLP應(yīng)用價(jià)值
文本是最常見(jiàn)的生產(chǎn)資料,產(chǎn)品經(jīng)理學(xué)習(xí)NLP的原理及應(yīng)用,可以開闊解決問(wèn)題的視野。
拿在線教育行業(yè)舉例,利用自然語(yǔ)言處理能力,可以自動(dòng)識(shí)別出學(xué)生評(píng)論的情感傾向,可以輔助老師進(jìn)行作文批改、自動(dòng)出題、自動(dòng)解題。
不難看出,自然語(yǔ)言處理的應(yīng)用場(chǎng)景,并非人做不了,而是可以替代人類的手工勞動(dòng),大大提升任務(wù)的效率,將人解放出來(lái),做更有價(jià)值的工作。
以上就是“產(chǎn)品經(jīng)理如何入門自然語(yǔ)言處理(NLP)?”的內(nèi)容了,如果你還想了解其他相關(guān)內(nèi)容,可以來(lái) 產(chǎn)品壹佰 官方網(wǎng)站。