羅廷瑋 @ 第11屆第1會期教育及文化委員會第13次全體委員會議

時間: 0
Start Time End Time Text
00:00:00,509 00:00:05,793 我再宣告一下等陳佩玉委員諮詢完之後我們來處理臨時提案跟解凍案好謝謝主席有請吳主委好有請吳主委
00:00:19,759 00:00:45,049 吳主委好恭喜上任歡迎加入我們教文的大家庭叫你吳主委感覺很親切因為上一個也是吳主委我今年年初才來立法院就職跟吳正宗主委相處時間比較短相信接下來時間我們有很長的一段時間會合作那本期感到非常的期待那為什麼開頭要聊到這個正宗主委因為今年3月的時候吳主委進行了業務報告兩個月後
00:00:46,770 00:01:09,876 您新上任也做了業務報告當然我們有共同關注到幾個重要的科學議題但是我想民眾會想更知道的一件事情是您接任國科會主委您跟吳正宗主委有什麼差別在業務上的執行上有什麼風格不同未來有什麼特別要處理的政策可不可以簡單說明一下
00:01:10,919 00:01:37,726 我想我們過去非常注重經濟的發展因為經濟發展好的話我們才有足夠的能力來協助我們整個社會文化的提升所以我想在我的任內除了延續我們原來在科技產業很努力的做研發做產業的推動之外我們也會努力的來協助整個社會文化提升各行各業利用我們科技的優勢來協助他們
00:01:38,806 00:02:06,815 好,我們一起努力各行各業我希望不管是從上到下基層的很多行業也需要幫忙不要讓他們覺得國科會很遠不要讓他們不知道有國科會的存在本期想要向主委詢問一下精創方案回到我們施政的主軸上這個方案目前加速推動了四大佈局也就是所謂推動生成式AI幫助百工百業強化國內培育環境吸納全球頂尖人才
00:02:07,535 00:02:36,143 那你本身自己有在用生成式AI嗎?坦白講我個人有用過但是還不是很滿意有用過是對生成式AI不是很滿意還是你使用的過程不是很滿意對生成式AI來講我們要知道它的能力然後它的限制是因為它使用了這個AI統計式的方法它是不可能達到100%準確你要的答案
00:02:36,323 00:03:01,888 但是你有研究我們所謂年輕人說的深圳市AI有所謂的這個魔咒咒語你會使用相關的咒語嗎我目前沒有所謂的咒語就是他的指令我想這個是要去了解深圳市AI可能需要掀起的一個先前目的那我想經濟部合作推動加速一直整合以及先進的技術開發最後就是要推動系導的一個實力我想
00:03:02,628 00:03:03,669 我可以請我們負責同仁
00:03:30,938 00:03:51,421 請說關於IC新創其實我們因為開始執行我們已經正式那個開始弄取一個那個全球公安的一個競賽的規劃那因為剛開始嘛所以我們在未來幾個月在年底之前會再跟委員報告整個的狀態因為已經半年了那所以就只是目前這樣子主委你覺得呢聽完他剛剛說的
00:03:57,283 00:04:01,185 聽起來就是好像有做事但是
00:04:18,635 00:04:46,918 主軸具體好像也看不出來是半年了大概做些什麼但沒關係我會關注一下這過程我相信有努力啦剛剛你講了很多的這個算是日程嗎或者是你們的一些會議OK但是我們希望的是半年了有沒有具體有沒有準備要做什麼那有沒有進展的一個具體方向讓我們能夠更確定的知道我想想問問主委在CHAP GPT剛問事的時候你有沒有試問過
00:04:48,373 00:05:11,538 剛才有說有沒有什麼使用過對有使用過那現在可以說是一個世代為什麼這樣說因為目前國科會的泰的模型聯發科有自己的模型台智雲有福爾摩沙大模型群創光電有白龍模型大家都致力於在打造繁體中文模組的一個AI模型那因為上個月
00:05:12,478 00:05:36,931 四月十五國科會才釋出了Tide 7B的模型說是結合台灣文化擁有70億參數的大型語言模組我想緊接著呢Meta又釋出了自己的一個相關的模組國科會立馬又在四月二十九號又發表了Lama3 Alpha的一個模組
00:05:40,020 00:05:54,874 請問這個研發速度可以說是AI的軍備競賽感受到你們的積極度但我想請問一下包括你們的這個資料庫的來源目前可以提供說大概來源資料庫來源大概都來自哪一國嗎?
00:05:56,454 00:06:12,477 我們資料庫的來源應該都是台灣的都是台灣自己是在台灣本土收集的所以70億全數都來自台灣我想我不敢說自己是專家我也不敢在你們面前說我多了解
00:06:13,038 00:06:38,067 但我想有自己去稍微了解一下我們目前發展的基礎以META開發的一個LM2的一個模組模型也就是我們現在使用是用開源的一個資料他在pressuring的過程中就已經有簡體資料的一個簡體中文的資料我們頂多可以給他看繁體資料但不能避免這個開源模型已經有簡體資料對吧
00:06:41,433 00:07:06,728 這個可能會存在的對如果我們想要完全避免檢體資料進而開發一個全面的繁體資料應該會遇到兩個問題第一個問題就是本體的資料不足數據量遠遠不足我想跟全世界來比第二個更大的問題就是如果是只有繁體的資料就需要重新訓練是對吧是就本期
00:07:07,688 00:07:27,678 自己查了資料去了解重新訓練沒有幾萬片H100的GPU辦不到目前台灣國家隊大概只有72片遠遠低於國外的新創團隊與大企業請問要如何重新訓練我們正在努力在加速建置我們的運算的資源我剛說GPU數量有錯嗎那個國王我請國王中心主任來回答
00:07:36,513 00:07:55,363 不好意思因為我看到您不是很肯定的我想說給你回答都沒關係我們可以互相的報告委員去年台德計劃展開的時候我們構置了72片的H100的GPU但是我們台灣32號本來就有2000片的V100在國王掌控裡面有1000片
00:07:56,610 00:08:20,669 所以我剛說的重新訓練我們估計要幾萬片的一個GPU那目前我們只有72片如果我們只能基於還是有簡體資料的前提下多加入了繁體資料只能做到繁體中文的微調本席想了解那麼就這樣的基礎所開發的AI模型與OpenAI、ChapGPT也好Google的具體落差在哪裡
00:08:21,109 00:08:29,538 目前繁體中文與所謂的簡體中文資料在訓練數據中比例各佔多少?是否具體的數據可以提供一下?
00:08:32,006 00:08:58,505 這個簡體跟繁體的比率其實沒有一個精確的統計但是拉瑪事出的時候他有提到他的中文的比率是多少那可以拿來做參考但是並不是說本來是簡體他就一定會你如果為很多的繁體中文他事實上說會改變他的參數繁體中文的表現會越來越好好所以我說剛剛以我們的AI模型跟openAI、chip、gpt、google的具體落差在哪?
00:09:00,421 00:09:28,150 他們的模型是非常大的模型是從頭訓練起我們是fine tuning和continuous retraining所以當然是有他的差距在我想那聽出來我們的差距不是微幅是非常的巨大因為畢竟我們要跟國外相比我們也要看使用者到底未來想使用的他的具體希望得到的成效是什麼他當然會希望不管是語言模組或者是後續的資料庫
00:09:29,150 00:09:56,975 他能夠有龐大的資料去支撐生成式AI所生成式的東西才可以加大他的生成式出來的資料是有確定性或者是穩定性甚至是我們說的準確性能夠提高這是一個使用者他希望能夠追求的那本席目前有看到國科會定調希望作為一個資助開源模型的資助產業例如工研院電光所可以運用的
00:09:58,215 00:10:06,206 結合相關的技術或是針對鋼鐵的產業知識提供智慧化的問答檢索詢問高爐或電弧爐的相關產業知識除了這些我們還計畫將泰德7B運用在哪些具體的產業上
00:10:18,325 00:10:30,281 對於產業的協助我們是以公開釋出他們可以去來使用的目前表達興趣的像醫療體系他們有表達興趣來使用這個type
00:10:31,477 00:10:54,782 我想就是公開大家各自使用啦是因為不同的專業要用不同的車來訓練主委討論到這樣子我們不覺得很奇怪嗎國科會的會真的有具體了解到台灣產業的需求嗎我們到底要提供百工百業在生成式AI未來能夠使用上有什麼樣的具體幫助我認為發展本土化翻體中文LM
00:10:55,822 00:11:14,637 模型我們支持我們也不希望看到簡體中文但是在本土化的過程中到底我們的資料能不能期待他能夠有更多元能夠納到跟國外的相關的我們說的chip gpt open ai的資料庫
00:11:15,698 00:11:44,187 來做一個比擬。我想台灣如果發展了一個只能搜尋少量英文、繁體中文、本土資訊的搜尋引擎。這個其價值、商業價值我相信是比較低的。為什麼?因為我認為還是要回歸到AI工具實不實用。所以我想講白了OpenAI、ChapGVT如果沒有大量全球的知識去擴充只有台灣本土的知識。主委你個人覺得它實用嗎?
00:11:45,127 00:12:03,144 通用型AI跟比較專業的AI是不一樣的這是訓練資料的差異所以我們在台灣我們要發展各行各業用的AI它的訓練資料就要用各行各業的資料甚至是AI的好處就是說你的資料量不足但是廣度夠的話它可以產生非常多的訓練資料幫它做得很好
00:12:03,840 00:12:31,715 我想國科會應該要實事求是我們應該要去擴充發展自己的LLM的一個工具讓企業廣泛來使用本席具體的要求國科會研議企業LLM訓練方案台灣需要的不是那種很簡單的手續引擎我想台灣需要的是發展適合中小企業可以訓練LLM的一個簡易工具主委能夠答應我們來研議嗎我們會鼓勵學界努力做這個事情我們大家一起來努力好不好 謝謝
00:12:33,612 00:12:33,893 羅廷瑋主席
公報發言紀錄

發言片段

lineno: 676

發言片段: 0
羅委員廷瑋:(11時38分)謝謝主席,有請吳主委。
發言片段: 1
主席:好,有請吳主委。
發言片段: 2
吳主任委員誠文:委員好。
發言片段: 3
羅委員廷瑋:吳主委好,恭喜上任,歡迎加入我們教文的大家庭,叫你吳主委,感覺很親切,因為上一個也是吳主委。我今年年初才來立法院就職,跟吳政忠主委相處時間比較短,相信接下來我們會有一段很長的合作時間,本席感到非常的期待。
為什麼開頭要聊到政忠主委?因為今年3月的時候,吳主委進行了業務報告,2個月後你新上任,也做了業務報告,當然我們有共同關注到幾個重要的科學議題,但是我想民眾會更想知道的一件事情是,您接任國科會主委,您跟吳政忠主委有什麼差別?在業務執行上有什麼風格不同?未來有什麼特別要處理的政策?可不可以簡單說明一下?
發言片段: 4
吳主任委員誠文:我們過去非常注重經濟的發展,因為經濟發展好的話,我們才有足夠的能力協助整個社會文化的提升,所以我想在我的任內除了延續原來在科技產業很努力的研發、產業的推動之外,我們也會努力的協助整個社會文化的提升,利用我們科技的優勢來協助各行各業。
發言片段: 5
羅委員廷瑋:好,我們一起努力,各行各業,我希望不管是從上到下,基層很多行業也需要幫忙,不要讓他們覺得國科會很遠,不要讓他們不知道有國科會的存在。
本席想要向主委詢問一下晶創方案,回到我們施政的主軸上,這個方案目前加速推動四大布局,也就是推動生成式AI、幫助百工百業、強化國內的培育環境、吸納全球頂尖人才,你本身有在用生成式AI嗎?
發言片段: 6
吳主任委員誠文:坦白講,我個人有用過,但還不是很滿意。
發言片段: 7
羅委員廷瑋:有用過?
發言片段: 8
吳主任委員誠文:是,個人用。
發言片段: 9
羅委員廷瑋:對生成式AI不是很滿意,還是你使用的過程不是很滿意?
發言片段: 10
吳主任委員誠文:以生成式AI來講,我們要知道它的能力、它的限制,因為它使用了AI統計式的方法,它不可能達到百分之百準確,符合你要的答案……
發言片段: 11
羅委員廷瑋:當然,但是你有研究我們年輕人說的,生成式AI有所謂的魔咒咒語,你會使用相關的咒語嗎?
發言片段: 12
吳主任委員誠文:我目前沒有。
發言片段: 13
羅委員廷瑋:所謂的咒語就是它的指令,我想這個是瞭解生成式AI可能需要的一個先期目的。經濟部合作推動加速異質整合以及先進的技術開發,最後就是要推動矽島的實力,我們更希望能夠在國內外新創的同時吸引投資來臺,這個計畫預計10年內要投資3,000億,今年第一年就投入120億,之前國科會期許5年會有多家IC的新創在國內誕生,半年過去了,具體執行狀況如何?有沒有進展?
發言片段: 14
吳主任委員誠文:我可以請我們負責的同仁……
發言片段: 15
羅委員廷瑋:可以,請說。
發言片段: 16
楊執行秘書佳玲:關於IC新創,因為剛開始執行,我們已經正式開始launch一個全球call案的競賽規劃……
發言片段: 17
羅委員廷瑋:對。
發言片段: 18
楊執行秘書佳玲:也因為剛開始,所以我們未來幾個月,在年底之前會再跟委員報告,update整個狀態。
發言片段: 19
羅委員廷瑋:因為已經半年了,所以就只是目前這樣子?主委,您覺得呢?聽完他剛剛說的。
發言片段: 20
吳主任委員誠文:我們加速、加速……
發言片段: 21
涂副處長君怡:我們5月14號有一個Grand Challenge開始啟動,6月30號會結案,目前我們有在跟相關的SEMI還有半導體領域去促案。
發言片段: 22
羅委員廷瑋:聽起來好像有做事,但是主軸具體好像也看不出來半年了大概做了些什麼,但沒關係……
發言片段: 23
吳主任委員誠文:我會關注一下。
發言片段: 24
羅委員廷瑋:這個過程我相信有努力,剛剛你講了很多的這個算是日程嗎?或者是你們的一些會議,OK,但是我們希望的是,半年了,有沒有準備要做什麼?有沒有進展的一個具體的方向?讓我們能夠更確定的知道。我想問主委,在ChatGPT剛問世的時候,你有沒有使用過?你剛剛有說。
發言片段: 25
吳主任委員誠文:有沒有什麼?使用過?
發言片段: 26
羅委員廷瑋:對。
發言片段: 27
吳主任委員誠文:有,有使用過。
發言片段: 28
羅委員廷瑋:現在可以說是LLM的世代,為什麼這樣說?因為目前國科會有TAIDE模型;聯發科有自己的模型;台智雲有福爾摩沙大模型;群創光電有白龍模型,大家都致力於在打造繁體中文模組的AI模型。上個月(4月)15日,國科會才釋出了TAIDE-LX-7B的模型,說是結合臺灣文化,擁有70億參數的大型語言模組;緊接著Meta又釋出自己一個相關的模組;國科會立馬在4月29號又發表了Llama 3 Alpha 的模型,這個研發速度可以說是AI的軍備競賽,令人感受到你們的積極度。但我想詢問一下,包括你們的資料庫來源,目前可以提供你們的資料庫來源,大概都來自哪一國嗎?
發言片段: 29
吳主任委員誠文:我們的資料庫來源應該都是臺灣的。
發言片段: 30
羅委員廷瑋:都是臺灣自己的?
發言片段: 31
吳主任委員誠文:是,在臺灣本土收集的。
發言片段: 32
羅委員廷瑋:所以70億全數都來自臺灣?好。我想我不敢說自己是專家,我也不敢在你們面前說我多瞭解,但我自己有去稍微瞭解一下,我們目前發展的基礎是以Meta開發的Llama 2模型,也就是我們現在使用的是開源的資料,它在prerational的過程中就已經有簡體中文的資料,我們頂多可以給它看繁體資料,但不能避免這個開源模型已經有簡體資料,對吧?
發言片段: 33
吳主任委員誠文:這個可能會存在的,對。
發言片段: 34
羅委員廷瑋:如果我們想要完全避免簡體資料,進而開發一個全面的繁體資料,應該會遇到兩個問題。第一個問題就是本土的資料庫不足,跟全世界來比,數據量遠遠不足。第二個更大的問題就是,如果是只有繁體的資料,就需要重新訓練,對吧?
發言片段: 35
吳主任委員誠文:是。
發言片段: 36
羅委員廷瑋:就本席自己查的資料瞭解到,重新訓練沒有幾萬片H100的GPU辦不到,目前臺灣國家隊大概只有72片,遠遠低於國外的新創團隊與大企業,請問要如何重新訓練?
發言片段: 37
吳主任委員誠文:我們正在努力加速建置我們的運算資源。
發言片段: 38
羅委員廷瑋:我剛剛說的GPU數量有錯嗎?
發言片段: 39
吳主任委員誠文:我請國網中心主任來回答。
發言片段: 40
羅委員廷瑋:OK。不好意思,因為我看到您不是很肯定的,我想說給你回答都沒關係,我們可以互相的……
發言片段: 41
張主任朝亮:報告委員,去年TAIDE計畫展開的時候,我們購置了72片H100的GPU……
發言片段: 42
羅委員廷瑋:對嘛,72片。
發言片段: 43
張主任朝亮:就是您剛剛提的,但是我們的臺灣杉二號本來就有2,000片的V100,在國網掌控裡面的有1,000片。
發言片段: 44
羅委員廷瑋:所以我剛剛說的要重新訓練,我們估計要幾萬片的GPU,目前我們只有72片。如果我們只能基於還是有簡體資料的前提下,多加入了繁體資料,只能做到繁體中文的微調。本席想瞭解,就這樣的基礎所開發的AI模型與OpenAI的ChatGPT也好,或是和Google的具體落差在哪裡?目前繁體中文與所謂簡體中文的資料,在訓練數據中比例各占多少?是否有具體的數據可以提供一下?
發言片段: 45
張主任朝亮:簡體跟繁體的比例其實並沒有精確的統計,但是Llama釋出的時候,有提到它的中文的比例是多少,可以拿來作為參考,但並不是說本來是簡體,它就一定會,你如果餵很多的繁體中文,事實上會改變它的參數,繁體中文的表現會越來越好。
發言片段: 46
羅委員廷瑋:好。所以我剛剛問說,以我們的AI模型跟OpenAI的ChatGPT以及Google的相較,具體落差在哪?
發言片段: 47
張主任朝亮:他們的模型是非常大的模型,是從頭訓練起,我們是fine-tuning和continuous pretraining,所以當然是有其差距在。
發言片段: 48
羅委員廷瑋:這樣聽起來,我想我們的差距不是微幅,是非常的巨大,因為畢竟我們要跟國外相比,我們也要看使用者到底未來想使用的,他具體希望得到的成效是什麼。他當然會希望不管是語言模組或者是後續的資料庫,能夠有龐大的資料去支撐生成式AI所生成的東西,才可以加大它生成式出來的資料是有確定性或者是穩定性,甚至是我們說的準確性能夠提高,這是一個使用者希望能夠追求的嘛。本席目前有看到國科會定調,希望作為一個資助開源模型的資助產業,例如工研院電光所可以運用TAIDE結合相關的技術,或是針對鋼鐵的產業知識提供智慧化的問答檢索,詢問高爐或電弧爐的相關產業知識。除了這些,我們還計劃將TAIDE 7B運用在哪些具體的產業上?
發言片段: 49
楊執行秘書佳玲:跟委員報告,對於協助產業的部分,現在我們有公開釋出,然後他們可以使用的,目前像醫療體系有表達使用TAIDE的興趣。
發言片段: 50
羅委員廷瑋:好,我想就是公開,大家各自使用啦!
發言片段: 51
吳主任委員誠文:是,因為不同的專業,要用不同的資料來訓練。
發言片段: 52
羅委員廷瑋:對不起,我覺得,主委,討論到這樣子,我們不覺得很奇怪嗎?國科會真的有具體瞭解到臺灣產業的需求嗎?我們對於百工百業未來在使用生成式AI上,到底能夠提供什麼樣的具體幫助?我認為發展本土化繁體中文LLM模型我們支持,我們也不希望看到簡體中文,但是在本土化的過程中,到底能不能期待我們的資料能夠更多元,能夠跟國外相關的,比如說OpenAI的ChatGPT的資料庫相互比擬?我想如果臺灣發展的是一個只能搜尋少量英文、繁體中文本土資訊的搜尋引擎,其商業價值我相信是比較低的,為什麼?因為我認為還是要回歸到AI工具實不實用。所以,講白了,OpenAI的ChatGPT如果沒有大量全球的知識去擴充,只有臺灣本土的知識,主委,你個人覺得它實用嗎?
發言片段: 53
吳主任委員誠文:通用型的AI跟比較專業的AI是不一樣的,這是訓練資料的差異,所以我們在臺灣要發展各行各業用的AI,它的訓練資料就要用各行各業的資料。生成式AI的好處就是說,你的資料量不足,但是廣度夠的話,它可以產生非常多的訓練資料,幫它做得很好。
發言片段: 54
羅委員廷瑋:我想國科會應該要實事求是,我們應該要去擴充發展自己的LLM的工具,讓企業廣泛來使用。本席具體要求國科會研議企業LLM訓練方案,臺灣需要的不是那種很簡單的搜尋引擎,我想臺灣需要的是發展適合中小企業,可以訓練LLM的一個簡易工具,主委能夠答應我們來研議嗎?
發言片段: 55
吳主任委員誠文:我們會鼓勵學界努力做這個事情。
發言片段: 56
羅委員廷瑋:好,我們大家一起來努力,好不好?謝謝。
發言片段: 57
吳主任委員誠文:是。
發言片段: 58
主席:謝謝羅廷瑋委員,主委請回。接下來請陳培瑜委員。

公報詮釋資料

page_end 216
meet_id 委員會-11-1-22-13
speakers ["林宜瑾","柯志恩","洪孟楷","葛如鈞","郭昱晴","萬美玲","林倩綺","陳秀寳","張雅琳","吳沛憶","吳春城","葉元之","羅廷瑋","陳培瑜","賴士葆","范雲","蔡易餘","楊瓊瓔","何欣純","邱志偉"]
page_start 155
meetingDate ["2024-05-23"]
gazette_id 1135001
agenda_lcidc_ids ["1135001_00004"]
meet_name 立法院第11屆第1會期教育及文化委員會第13次全體委員會議紀錄
content 一、邀請國家科學及技術委員會主任委員吳誠文列席報告業務概況,並備質詢;二、審查113年 度中央政府總預算有關國家科學及技術委員會主管預算(公務預算)解凍案7案
agenda_id 1135001_00003