[文章備份] AI、大數據、劇本：膾炙人口的「我們與惡的距離」劇本是怎麼產生的？

6月 29, 2021

公視相當熱門的影集「我們與惡的距離」，您看過了嗎？這是台灣第一個描寫隨機殺人事件的社會寫實電視劇，在 2019 年上映時，獲得了社會相當大的迴響。當時獲得了相當傑出的收視率，完結篇甚至達到了 3.40 ，也就是同時有約 73 萬人在收看，為公共電視台史上收視率第三高的戲劇節目。

這個故事雖然從隨機殺人事件進入，但隨著影集的進展，還涉及了新聞媒體困境、以及社工界、法律界、醫學界等之間的交錯縱橫。由於涉及範圍相當的龐大，劇本開發當下引入了大數據文字探勘的技術才得以完成其既廣又深而且充滿著矛盾與衝突的故事。

對於劇作家來說，一個好的劇本從來不是告訴你一個故事以及一個標準答案，也絕對不會是好人 vs. 壞人、然後好人永遠都贏。好的故事需要有「觀點」與「衝突」、還要爬梳出來「事件」與「人物」脈絡。由一個近現代的真實事件開始寫劇本，難的部份不是資料太少，反而如何由巨量的資料當中整理出來具戲劇張力、而且充滿討論空間的劇本。

由「麻醉風暴2」時期開始建立的合作默契與聚焦

「我們與惡的距離」的製作費經費的來源是前瞻基礎建設計畫中「推動超高畫質電視內容升級前瞻計畫」經費。這次是資策會服創所第一次協助劇作家進行田野調查的部份工作，進行資料分析，使得劇作家在撰寫劇本的時候可以從中找出觀點、衝突和立場，一個好的劇本必須具備的三元素。

「大數據探勘」和「劇本」，這兩個看起來毫不相干的議題究竟是怎麼開始的呢？原來，在2015年上映的「麻醉風暴」上映之後，由於「麻醉風暴2」尚有幾場戲還未完成，劇組希望能夠從社群媒體中觀眾的評論中進一步篩選出可能關注的議題、人物，以期可以從時間序列中找出事件與人物的脈絡。

具體的工作流程從資料庫蒐集以及資料預處理開始，服務數據中心先以「八仙」為主要關鍵字，從各社群媒體如 Facebook、PTT 中蒐集相關資料，並且人工去除非塵爆相關的文章。然後以時間軸的方式處理與呈現事件、並同時描繪人物關係圖，將重點人物標示出來、再分析人名出現的頻次及分類之後提供給編劇與製作團隊。然後在會議之中，編劇與製作團隊會問一些相關問題，例如將某個事件更加精細的區分或是更加細節的描繪特定事件、議題、人物之間的相關性，服務數據中心就再回到第三步驟資料分析，並再次分析繪製圖表提供參考。

大數據劇本開發的研究流程 — ▲「麻醉風暴2」當中透過大數據協助劇本開發的流程。

開發麻醉風暴劇本時透過巨量資料找出趨勢段中的重要事件 — ▲「麻醉風暴2」劇本開發時，透過社群媒體的巨量討論找出整體趨勢以及時間區段中的重要事件。

大數據劇本開發中人物側寫 — ▲人物側寫是編劇重要的工作之一，透過巨量資料的文字探勘，協助編劇將事件中的所有人物分門別類，人物故事也可以在一個簡單的圖表內閱覽成千上萬筆資料中關於人物的背景資料說明。

「我們與惡的距離」合作的關鍵在於「觀點」與「衝突」

時間快轉到「我們與惡的距離」的劇本寫作。由於這次是從編劇初期階段就要引入大數據來共同協作。透過大數據、資料探勘的技術一開始就協助劇本的開發，在當時是全世界第一個這樣做的團隊，並無前例可循。雙方一開始仍然碰到如何聚焦、如何合作的問題。

作為編劇，在劇本開始寫作之前，勢必要蒐集大量的田野調查資料，以「我們與惡的距離」來說，訪談40位相關的立委、法官、律師、精神科醫師、社工、記者、以及思覺失調症病人和家屬等人之後，累積了超過4G的錄音檔、74個140MB的文字檔。而服務數據中心這裡的情況也相當類似，蒐集了一年之間 Facebook 和 PTT 等社群媒體的資料之後，竟然有 4 萬筆之多，即便是經過分析篩選之後，仍然有 1 萬 8 千多筆資料。這樣的巨量資料並不會給劇作家帶來任何幫助，反而只會讓人進入選擇困難。

雙方在會議之後，逐漸聚焦，把服務數據中心提出的數據整理、探勘工作分類為「有幫助」和「沒有幫助」的部分，編劇並提出對於服務數據中心的期待。以此為聚焦的起點開始工作。

服務數據中心對於「事件」與「人物脈絡」對於戲劇的安排以及人物角色的安排有幫助，而且編劇需要的是「觀點」與「衝突」，希望從冷冰冰的資料呈現、趨勢之中梳理出事件、人物之間的觀點分析。而「一般性的討論」以及「熱度趨勢」分析對於編劇是沒有幫助的。

換句話說，目前為止大部分時候使用大數據常見的「硬性資料」中的趨勢分析、預測對於劇本開發是沒有太大幫助的，反而是「軟性資料」從中挖掘出不同人物角色的觀點分析、找出觀點之間的衝突，才是能夠幫助寫出劇本的。

資策會服創所-大數據劇本開發協助編劇進行資料梳理工作 — ▲大數據工作團隊並無法替代田野調查的工作，但是卻可以協助梳理資料，找出「觀點」與「衝突」，使得劇本中的故事更加貼近真實、引發討論。

「效應分析以及未來展望」

服務數據中心從這樣截然不同的數據分析角度，開始從 4 萬篇資料當中嘗試斷詞出人名，從所有 1300 人名之中抽出頻率出現最密集的前 10%，也就是約 140 人，利用這 140 人將文章資料打上標籤，並且從文章中找與事件關聯度高的關鍵字，加上人工給予的權重，找出來以時間軸來看，找出與事件關聯度高，但未必熱門的議題。

為什麼要這樣做呢？原來編劇給服務數據中心以及自己一個有趣的功課，也就是要寫出一個能夠讓大家討論的戲，而且要多線交錯。從這樣的觀點出發，服務數據中心就要想辦法找出對於大眾有 80% 熟悉度的議題，而大眾又對於這個議題有 20% 的不了解。編劇就可以透過說故事的手法帶領議題、深入人心。藉此引發閱聽群眾的討論，甚至是不同領域的跨域對話。以結果論，「我們與惡的距離」相當成功的引起了法律界、醫學界、媒體界甚至社工界的專業人士專文評論劇中情節或是討論相關議題。

在尋求不同的觀點與衝突的過程當中，找到了檢察官對上法官、辯護律師和被害者家屬律師這些種種衝突的觀點，人物的經典對話也從資料庫當中找出許多充滿著戲劇張力的文本。

除此之外，服務數據中心也在分析當中發現媒體不管有意無意，在「帶風向」中扮演了極為重要的角色，並且也進一步發現「同溫層」原來在意見領袖之上，另外創造出不同的社會群體。另外還有一個支線議題則是編劇本身有興趣且有深入研究的「社會安全網」議題補充。這兩個支線議題交給編劇之後，內容之豐富，幾乎可以獨立出兩個新的故事主題，最終也創造了不少額外的戲劇張力。

在服務數據中心與劇作團隊的合作之後，發現服務數據中心能夠協助劇本創作的以下幾個主要效益：

主題知識圖譜
隱藏詞彙、專業術語
相關事件脈絡

劇作家原本所設定的「骨架」，也就是故事走向、以及實際的田野調查都不是大數據或是資料探勘可以協助的，可是服務數據中心卻可以豐富故事的「血肉」，也就是提供主題知識圖譜，找出隱藏在故事之後的專業詞彙，並且提供整個故事俯瞰的概要脈絡，使得劇作的真實性與戲劇張力更加強烈。

未來，服務數據中心除了社群討論的資料之外，還有一些政府開放的資料如判決書、政府開放資料等等資料可以爬梳出更多有趣的故事。除了資料來源更加的廣泛之外，服務數據中心開發中的劇本開發引擎可以成為劇本開發的顧問，劇組可以帶著問題過來，由服務數據中心的資料探勘服務回答，或是透過資料探勘更加精細的開發出角色人物的設定。

搜尋此網誌

白爛大雜燴2 Bailan Mix