機器是怎麼聽懂人說話的?

要讓機器聽懂人說的話,首先我們需要讓機器可以把聽到的一段聲音訊號變成文字, 也就是所謂的語音辨識(speech recognition)。有了這些由聲音訊號辨識出來的文字不代表機器就已經理解了,對於機器來說這些文字就像是一個沒有學過的語言,還需要透過學習才能夠理解文字的內容。

Sponsored link

人類的文字世界是由一個個詞彙組成的,這個事實體現在許多人開始學習英文或其他非母語語言的時候,大概都免不了的那段背單字過程;機器的學習也和我們一樣,是從詞彙的理解開始。在過去,我們需要像字典一樣,逐一告訴機器詞彙對應的意義;現在基本上不再需要進行這項繁瑣的工作,只要利用詞彙嵌入(word embedding)的技術,機器就可以在閱讀大量文本之後,將詞彙轉換成機器可以處理的向量,甚至利用向量推論出不同詞彙之間的關係。

僅為情境圖。取自unsplash

舉例來說,機器在閱讀新聞時看到「馬英九在520宣誓就職」和「蔡英文在520宣誓就職」這兩個條目,雖然沒有人告訴過機器「馬英九」與「蔡英文」是什麼意思,但是機器能以此推論出這兩個詞彙在某種程度上是相關的;又比如「貓」與「狗」在各類文章中出現的位置關聯比較相近,和「花草樹木」的位置關聯則較遠, 機器可能會推論出「貓狗」是一類(動物)、「花草樹木」是另外一類(植物)。

如果我們讓機器「讀」愈多的書,機器就愈能推敲不同詞彙之間的遠近關係,猜出它們代表的意思。

跟著鄉民去湊熱鬧

傳統的文本內容有文法及結構,在學習上比較有跡可循;而網路用語往往讓人丈二金剛摸不著頭腦,不僅內容隨著時間千變萬化又包含著各種縮寫,詞彙的意義也和該網路社群的文化有關。因此,機器是否能夠理解網路用語並當一個合格的「鄉民(註1) 」,可以作為衡量機器學習能力的指標。

批踢踢實業坊(簡稱批踢踢、PTT)的八卦版是國內知名的網路論壇之一,在經過八卦版3個月份量的文章洗禮之後,機器儼然已經脫離了「新警察(註2) 」的角色。比如常見的用語「好棒棒」和「好棒」看似差不多,但其實在批踢踢用語裡是恰恰相反的兩個詞彙。經過訓練之後,當機器被問到「好棒棒」的相似詞為何時,已經能給出「阿不就好棒棒」、「好清高」及「好高尚」等等的答案,從這個結果我們就可以知道,機器是真的理解這個詞彙的用法,能夠發現「好棒棒」在其表面的詞意以外,其實具有反諷的意涵。

僅為情境圖。取自unsplash

Sponsored link

有了這個功能之後,我們就可以利用機器去理解一些我們本來不熟悉的網路用語。比如說,「本魯」這個詞是批踢踢使用者在張貼文章、發表言論時,常使用的謙稱,日常生活中幾乎沒有機會使用到,因此非論壇使用者通常對這個詞比較不熟悉。透過詢問訓練完成的機器「本魯」的相近用詞是什麼,我們可以得到「小弟」、「魯妹」、「魯弟」及「魯蛇小弟」等答案,據此我們就能對「本魯」的意義有所理解。

有了這樣子的技術之後,機器在詞彙理解之外,也能去進行一些較高層次的簡單推理, 例如「A之於B等於C之於什麼?」這類推論。比如說,當被問到「魯夫之於《海賊王》等於鳴人之於什麼?」機器可以推論出答案是《火影忍者》,這種角色和作品的對應關係;對於「魯蛇之於loser等於溫拿之於什麼?」機器可以推論出答案是「winner」,這種語言轉換的對應關係;對於「研究生之於期刊等於漫畫家之於什麼」,機器可以推論出答案是《少年Jump》,這種特定領域知識和發表平臺的對應關係。

讓機器懂你的心

擁有理解不同詞彙意義的能力之後,接下來我們很自然地會希望機器能理解整個句子的內容。怎麼樣去衡量機器是否能夠達到這個任務呢?第一步,要交付給機器的任務就是情緒分析(sentiment analysis),機器必須要能夠分析語句的情緒,判斷內容的情緒是「正面的」還是「負面的」。這件事情可以透過遞迴神經網路模型的訓練來達成,比如說:

·「AI is powerful, but it’s hard to learn.」

·「AI is hard to learn, but it’s powerful.」

·「AI is powerful, even though it’s hard to learn.」

這幾個句子的結構幾乎相同,只有調動詞語的順序,或者字詞上的輕微差別;但是經過訓練的機器可以判斷出這些句子的情緒分別是「負面的」、「正面的」、「正面的」。這個功能雖然只有簡單的在「正面」、「負面」兩種選擇之間進行判斷,卻可以發展出生活化且相當實用的應用,比如說:現在網路上的評價制度在使用者的評價以外還須附上分數;如果是遊記、食記等心得體驗文則以文章形式呈現。這類觸及廣大讀者卻不受統一評分制度限制的內容,也應當是業者需要蒐集來作為改進參考的意見。

Sponsored link

當機器能夠判斷情緒,在未來我們就可以應用到市場的調查上,去分析這一類的文章。

托福(TOEFL)是許多學子出國留學之前要經過的關卡之一。如果讓機器考考看托福的聽力測驗,機器能否順利通過考驗呢?在這個任務之中,機器必須聽懂一段聲音訊號的內容、看懂問題和選項,最後結合聽力和閱讀的理解去選出答案,因此必須能夠運用前述的各項能力。當然,就如同我們考試之前會去刷一下考古題,此機器學習的材料就是歷年托福的聽力考題。目前的成果可以達成五成以上的正確率,跟瞎猜或者是「選最長的選項」等,各種同學間私下流傳的答題技巧的結果比起來可說是好上許多;雖然還不是很完美,但可以讓人知道,機器已經能夠初步理解整段文字的內涵了。

註1:泛稱批踢踢的使用者。 

註2:批踢踢對不熟悉論壇文化的新手使用者之代稱。

(Visited 108 times, 1 visits today)