FIND研究員:翁逸姝
NLP(自然語言處理)為機器理解並解釋人類寫作、說話方式的能力,其目標是彌補人類交流(自然語言)和計算機理解(機器語言)之間的差距,NLP包含NLU和NLG,這兩者可視為相反的程序,NLU將人類語言轉成內部計算表示式,而NLG則將內部計算表示式轉成人類語言:
自然語言理解 NLU:
理解給定文本的含意,透過詞彙和語法規則了解每個單詞的含意,包含:
●詞法歧異性─ 單詞有多種含意
●句法歧異性─ 語句有多重解析方式
●語意歧異性─ 句子有多重含意
●回指歧異性─ 前述的單詞或短句在後面有不同含意
自然語言生成 NLG:
從結構化數據中自動生成可閱讀的文本,包含:
●文本規劃─ 完成結構化數據中基礎內容的規劃
●語句規劃─ 從結構化數據中組合語句,表達訊息
●實現─ 產生語法通順的語句來表達文本
NLP近期發展趨勢:「從符號主義和連接主義的對立走向合作,從靜態分析走向交互,從語法和淺層語意走向深層語意,從功能主義走向認知和情感體驗」,其中熱門的領域包含:
對話系統Dialogue:
自然語言對話將會開啟新的人機交互時代,然而對話有大量的省略和指代,必須透過大量的上下文訊息才能夠理解對話,因此對於訓練數據有指數級別上升的要求,故目前的對話系統一定是在限定場景下發揮作用的
閱讀理解Open-domain QA:
透過大量閱讀和記憶網絡回答開放性問題
非監督式學習Unsupervised Learning:
不須以人力輸入標籤,僅需提供範例,機器在學習時會自動找出潛在規則,包含集群(clustering)演算法、關聯規則探索(association rule discovery)等
自然語言生成NLG:
透過RNN-language model做自然語言生成已相當成熟,而透過GAN/VAE生成也相當熱門,但生成模型在自然語言方面並沒有像在圖像方面的顯著成效,最主要的課題在於NLG的應用目的尚不明朗,目前許多應用仍是在精心設計下的模板中產生,若能有清楚的應用標的,便能夠產出具有意義的應用,Gartner預測2018年將有2成的商業內容是由機器人所撰寫
NLG分類及主要應用模式:
NLG可分為四大類:
●以樣板或規則,輔以語料,經計算後產生
●使用通用的演算法,產生多組候選結果,經過評估挑選後產生
●使用有限狀態機(finite-state machine)或統計式機器翻譯(statistical machine translation)的技巧,逐句產生
●使用語料,以遞歸神經網路(RNN)和長短期記憶模型(LSTM)做學習,並採用增強式學習(reinforcement learning),經過生成、對抗、優化挑選,迭代產生結果,可在文法上(grammatical)、意義上(meaningful)、特定需求上(例如符合特定格式,或呈現重點),有更好的表現
在應用上,NLG可用於:
●輔助寫作:
如產生天氣預報、實驗或模擬結果的文件化、客服人員的回信(QA)、技術手冊的撰寫
●機器寫作:
如論文或專利的摘要、統計數據的文件化、病人就診紀錄及資訊的解釋
●教學:
如語言的教學及練習
●行銷:
如高轉換率、個人化的商品描述及廣告文案的生成
●行為改變:
如個人推薦、改變其購買行為或品牌,戒菸文件的產生
●娛樂:
如詩歌或笑話產生器,劇本生成
資料來源:
文章source:Xenonstack、竹間智能
封面圖片(免費下載):https://pixabay.com/zh/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD-%E6%9C%BA%E5%99%A8%E4%BA%BA-ai-%E3%81%8D-%E7%BC%96%E7%A8%8B-%E8%AE%A1%E7%AE%97%E6%9C%BA-%E7%8E%AF%E5%A2%83-%E8%AF%AD%E6%B3%95-%E7%A8%8B%E5%BA%8F-2167835/