前言

上篇文章中,我自己想了幾個關於神道的問題來測試 AI 人工智慧,然而我後來覺得我問的問題未必有良好的公信力,於是我便想到了日本相關宗教團體有推出業餘愛好者向的相關檢定考試,所以我便拿檢定的題目來測試最新出爐的 GPT-4 Turbo 與 Claud 2.1 來看看大型語言模型能否應對該領域的問題。

題目來源以及回答方式

神社檢定的官網中有提供三個等級的模擬試題,一級難度最高於是我選擇了二級來給予 AI 進行測試。測試的方法很簡單,打開網頁把題目與選項複製貼上到 AI 的輸入介面上並且送出, AI 則回應它所認知的答案。


神社檢定的題目皆為四個選項的選擇題,但是會有一篇文章挖空關鍵字然後以選擇題的方式要求回答,但是這些都是小 CASE 因為可以一次輸入短文以及數個題目,2 級模擬測驗總共有 20 題 (現實考試有 100 題)。 模擬試題網頁的介面 picture 0

答對時的樣子 picture 5

答錯的樣子 picture 6

結果與結論

這先就不賣關子了,在這 20 題當中 GPT-4 Turbo 模型答對了 13 題,而 Claud 2.1 只答對了 7 題;正式考試中 100 題需要對 70 題才算及格,所以粗估 GPT-4 Turbo 模型可能可以接近及格水準(如果每 20 題對 13 題的方式來粗估);在這場測試中 GPT-4 Turbo 模型勝過了 Claud 2.1。

GPT-4 Turbo 模型 picture 7

Claud 2.1 模型

picture 9

研究限制

這也是一個小小的實驗,我們僅能得知在業餘向的神道知識測試中, AI 的水準,不能代表本科生考試的題目以及其他領域需要推論邏輯的測試。