台灣主權AI訓練語料庫正式啟動 即日起受理線上申請中央社記者趙敏雅台北24日電 (2025-12-24 17:17:41)

數發部今天發布台灣主權AI訓練語料庫,廣納高品質、具在地化的正體中文語料,已有超過200個政府機關投入,上架逾2000筆資料集、超過6億Tokens,有需求者可至台灣主權AI訓練語料庫(https://taic.moda.gov.tw)申請。

數位發展部今天舉行記者會,宣布台灣主權AI訓練語料庫上線。數發部次長侯宜秀表示,人工智慧(AI)發展的護城河在於資料與人才,在資料面向,數發部已提出「促進資料創新利用發展條例」草案,並建置台灣主權AI訓練語料庫,強化AI發展基礎。

數發部資料創新司司長莊明芬說明,台灣主權AI訓練語料庫已有超過200個政府機關投入,上架逾2000筆資料集、超過6億Tokens,收錄各機關具台灣文化特色的高品質資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域,這些資料就像AI的教材,幫助AI模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。

莊明芬舉例,教育部提供的語言辭典資料涵蓋台語、客語及國語等,有助強化AI模型的用詞精準度與語意理解能力;文化部上架的公共藝術及文化資產類型資料集,展現台灣豐富、多元的藝文風貌,可作為訓練AI模型認識台灣文化內容的重要素材。

莊明芬表示,為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」,數發部與經濟部智慧財產局合作,共同推出「台灣主權AI訓練語料授權條款-第1版」,讓語料釋出有明確的授權依據,減少AI訓練資料可能產生的著作權爭議。

莊明芬說明,AI模型訓練等需求者可上台灣主權AI訓練語料庫(https://taic.moda.gov.tw),申請帳號並上傳相關文件,語料庫維運管理單位在收受申請案後7個工作日內完成審查,並以電子郵件通知帳號啟用;為確保帳號安全性及有效性,帳號啟用後每3個月,須重新進行憑證驗證。

侯宜秀指出,台灣主權AI訓練語料庫第1階段為中央機關先行,各政府部門上傳資料,只要有新資料加入,語料庫就會同步更新;第2階段為地方政府投入;第3階段將與民間團體合作,未來也希望有更多開發者、研究單位、學校及國際AI開發公司使用,讓大語言模型更貼近台灣需求,也確保有足夠的資料讓產業運用。

數發部說明,詞元(Tokens)簡單來說是AI模型的最小單位,AI不像人類可以一次讀完一句話再回應,而是一字字讀進去,再一字字產出。在這過程中,模型是以詞元(Tokens)為最小運算單位進行處理。
加密貨幣
比特幣BTC 87099.60 -1,390.43 -1.57%
以太幣ETH 2918.29 -87.78 -2.92%
瑞波幣XRP 1.86 -0.04 -2.25%
比特幣現金BCH 568.00 -21.54 -3.65%
萊特幣LTC 75.55 -1.45 -1.88%
卡達幣ADA 0.353771 -0.02 -4.59%
波場幣TRX 0.282713 0.00 -0.58%
恆星幣XLM 0.214390 -0.01 -2.73%
投資訊息
相關網站
股市服務區
行動版 電腦版
系統合作: 精誠資訊股份有限公司
資訊提供: 精誠資訊股份有限公司
資料來源: 台灣證券交易所, 櫃買中心, 台灣期貨交易所
依證券主管機關規定,使用本網站股票、期貨等金融報價資訊之會員,務請詳細閱讀「資訊用戶權益暨使用同意聲明書」並建議會員使用本網站資訊, 在金融和投資等方面,能具有足夠知識及經驗以判斷投資的價值與風險,同時會員也同意本網站所提供之金融資訊, 係供參考,不能做為投資交易之依據;若引以進行交易時,仍應透過一般合法交易管道,並自行判斷市場價格與風險。
請遵守台灣證券交易所『交易資訊使用管理辦法』等交易資訊管理相關規定本資料僅供參考,所有資料以台灣證券交易所、櫃買中心公告為準。 因網路傳輸問題造成之資料更新延誤,精誠資訊不負交易損失責任。