FINDIT
EN
2019.05.17

【2019.05 國際大展動態】2019 Google I/O年會:重點速讀

圖片來源:Google Keynote (Google I/O'19)

相對於讓果粉引頸期待的蘋果發布會,做為強勁對手的另一科技巨頭Google自然也少不了向全球大眾進行火力展示的舞台,每年舉辦的Google I/O開發者年會。I/O代表的是開放中創新(Innovation/ Open),針對Google目前所提供的服務,提出許多令人眼睛為之一亮的新科技應用。今年年會為期三天,5月7日至9日,地點在加州山景城(Mountain View)的露天劇場Shoreline Amphitheatre。

以下整理本次年會中,Google推出的重點科技應用項目:

一、重新定義「搜尋」這檔事

隨著網路世界的發達,Google已經成為「網路搜尋」的代名詞。如何在「搜尋」這件事情上有所突破,則是過去這幾年Google不斷實驗與嘗試的方向。在這次年會中,「搜尋」被帶到了一個新的高度。

首先是Full Coverage的功能。這個功能在去年就已經推出,只是在今年年會中正式公布。與過去不同之處在於納入更多層面的頁面搜尋結果,除了新聞或相關網頁之外,更會呈現如相關的背景研究、時間線等訊息。

其次是搜尋+AR的新功能。Google投入AR/VR領域多年,發展目標向來都是希望能將技術普及化。而在這次年會中,Google迎來新的AR應用,讓使用者能透過手機或行動裝置,為數位與真實世界帶來更多的連結。例如搜尋標的的3D模型(如肌肉骨骼或電商產品),藉以觀察到更為細節的部位與理解搜尋對象。

第三是Google Lens,讓搜尋這件事如同拿起手機般簡單。過去行動版的Google翻譯推出從拍攝的畫面辨識文字並翻譯的功能,而這次Google Lens則可視為這項功能的進化版。在Google搜尋列上增加了一個小圖示,點開後啟動鏡頭進行文字辨識、翻譯、搜尋等。例如使用者可以利用這個功能針對看不懂的外文菜單進行翻譯,連結菜品的照片或評價搜尋結果,甚至將鏡頭對著帳單即可提供小費試算服務。此外,Google Lens除了翻譯,更會將翻譯的文字逐一念給使用者聽,支援中、英、日、法、西等14國語言。

圖片來源:Google Keynote (Google I/O'19)

圖片來源:Google Keynote (Google I/O'19)

 

二、更加強大的虛擬助手

還記得去年Google I/O中那位代訂剪髮服務的虛擬助手嗎?使用者只要告訴Google Assistant時間地點與想要的服務,「她」就會自動打電話到店家預定。自然的對話過程,不時穿插的語助詞,都讓在座的觀眾驚為天人。今年Google則是將這位助手再次升級。

首先是Duplex on the web功能的推出,將語音訂位擴展到網頁上。對店家或消費者來說,網路訂位是一個方便的功能,但還不夠簡單。不斷的下一頁、各種需要勾選的表單與填寫的基本資料等,都影響使用者體驗。Duplex讓虛擬助手只要使用者告訴她時間地點與想要的服務,便會自動完成網路預訂的流程,使用者僅需一鍵確認即可,降低使用的複雜性。

其次是自然語言處理的大躍進。虛擬助理仰賴對語音的辨識,其背後支持是一個龐大的資料庫。然而,數據量的龐大往往影響了辨識與處理速度,亦需要聯網的支持。Google透過深度學習,在自然語言處理上取得大幅度的進展,藉由辨識少量「關鍵語音標籤」,能夠將所需的資料量從100GB縮減至 0.5GB,小到甚至可以直接內建於一般智慧手機中。

Google I/O現場即演示了如何在不聯網的情況下只用語音操作手機的多項功能,除了反應速度顯著提升之外,可用語音方式回覆簡訊、寫電子郵件、查詢具有特徵的照片等,更是令人驚豔。此外,一氣呵成的操作,顯示Google Assistant掌握語句之間的前後關係,對語意能有正確的理解(終於不需要每句話都用Hey Google開頭了)。新的語音系統預計在下半年跟著新出的Google Pixel手機推出。

另外,一個小小的貼心功能體現在那些有著起床氣的使用者,關閉早上的鬧鐘不需要先說Hey Google,直接大喊「STOP」即可。

Google Assistant的升級,不僅展現在處理速度與多工能力,更重要的是能做到「客製化」。一樣的字詞在不同人的心中代表的可能是不同的意思,同樣的問題,不同的人可能會有不同的答案。Google Assistant可以從使用者的歷史紀錄或行為判斷應該給予甚麼樣的回應,如推薦今晚的餐廳或菜單。

第三是Google Assistant的駕駛模式。行車時透過Google Map查詢路線與時間已是相當普遍,今年的Google I/O則進一步結合虛擬助理,在Google Map的介面進行多工操作,如播放音樂,甚至用語音通知駕駛是誰來電,並可決定是否接聽。

 

 


圖片來源:Google Keynote (Google I/O'19)

圖片來源:Google Keynote (Google I/O'19)

圖片來源:Google Keynote (Google I/O'19)

 

三、基於公共價值的AI應用

藉由強大的AI、語音辨識與自然語言處理能力,Google將這項技術延伸至公共領域,推出Live Transcribe、Live Caption、Live Relay與Project Euphonia等項目,將「上字幕」落實在不同的場景。Live Transcribe最為直覺,將說話者的聲音轉換為文字,讓聽障者一看就懂。同樣地,Live Caption則是可以將所有的影片放上字幕,甚至是直播影片的即時字幕處理。Live Relay是將場景延伸至打電話的時候,將對話變成字幕。

語音變為文字在正常的狀況之下是已經可以落實的技術,然而,溝通是雙向的行為,如何協助具有特殊狀況需求的人們正確發出訊息則是Project Euphonia的挑戰。如訓練AI辨識聽障者的發音,或是應用影像辨識,分析漸凍人表情的微小變化,藉以讓他人能瞭解其需求。

圖片來源:Google Keynote (Google I/O'19)

 

四、智慧手機與新系統發布

當其他手機大廠往更「高貴」或「折疊」路線發展之時,Google這次推出的新手機Pixel 3a與Pixel 3a XL瞄準的是去年推出的Pixel 3平價版,走的是「親民」路線,台灣售價分別為14,500元與17,100元。

Pixel 3a與Pixel 3a XL除了大小(5.6與6吋)與電池容量(3000mAh與3700mAh)不同外,硬體規格相同。正面採用Dragontrail玻璃,螢幕為FHD+OLED,且拿掉了瀏海設計。處理器方面都是使用高通驍龍670,搭配4GB LPDDR4與64GB的儲存空間,單SIM卡槽設計。此外,也有了3.5mm耳機孔。官方數據指出,充電15分鐘可用7個小時,而待機時間達30個小時。

值得一提的是Pixel 3a的夜間拍照能力,在低光源的環境下,透過AI技術,也能拍出清晰的畫面。而在Google I/O發布時也不忘酸了一下他牌手機。

除了新手機發布外,新的作業系統Android Q也趁勢發表。這已經是Android第10代的版本,將提供更豐富的螢幕設計、支援5G、夜間閱讀與專注模式。面對折疊手機的推出,Android Q加入更自然的螢幕切換功能。同時,也支援Live Caption功能,產生即時字幕

 

圖片來源:Google Keynote (Google I/O'19)

 

五、資安與聯合學習(Federated Learning)

AI是歷年Google I/O的重點項目,而當AI越來越貼近人性,服務越來越契合個人需求的同時,不得不思考數位資訊的安全性。對此,今年年會中Google 現任CEO Sundar Pichai親自說明對資安問題的方案與做法。

首要工作是讓隱私設定簡易化,不論是在何種的Google應用介面登入,如Chrome、Map、YouTube等,均可進行隱私規則設定。使用者可決定自動清除瀏覽紀錄的排程,或是使用無痕模式進行瀏覽包含Map等頁面。

對於數據的使用,Google的目標放在如何使用最少的數據訓練出最有效的AI。基於此,前述的資料庫輕便化成為這項工作的關鍵。由於各個行動裝置均可獨立完成運算,每個人上傳至雲端資料庫的數據只需要更新的結果。透過聯合學習方式彙整眾人的更新資訊,建立全球模型(Global Model)進行演算,並將演算結果發布到每個行動裝置上。例如Google的打字系統Gboard,當有許多人跳脫自動選字,使用某些特定字詞時,這項選字結果便會上傳至全球模型重新加入到自動選字的前幾名,並將結果發布到每個行動裝置,成為新的自動選字規則。

圖片來源:Google Keynote (Google I/O'19)

范秉航(台灣經濟研院 研六所副研究員)

參考資料

  1. Google Keynote (Google I/O'19), https://www.youtube.com/watch?v=lyRPyRKHO8M