此博客中的热门博文
范雅惠Lambda匿名函式google colaboratory
范雅惠PowerPoint轉場Transition動畫Animation大語言模型
大語言模型(英語:large language model,LLM)是一種語言模型,由具有許多參數(通常數十億個權重或更多)的人工神經網絡組成,使用自監督學習或半監督學習對大量未標記文本進行訓練[ 1 ]。大型語言模型在2018年左右出現,並在各種任務中表現出色[ 2 ]。 儘管這個術語沒有正式的定義,但它通常指的是參數數量在數十億或更多數量級的深度學習模型[3]。大型語言模型是通用的模型,在廣泛的任務中表現出色,而不是針對一項特定任務(例如情感分析、命名實體識別或數學推理)進行訓練[ 2 ]。 儘管在預測句子中的下一個單詞等簡單任務上接受過訓練,但發現具有足夠訓練和參數計數的神經語言模型可以捕獲人類語言的大部分句法和語義。 此外大型語言模型展示了相當多的關於世界的常識,並且能夠在訓練期間「記住」大量事實[2]。 雖然 ChatGPT 為代表的LLM在生成類人文本方面表現出了卓越的能力,但它們很容易繼承和放大訓練數據中存在的偏差。這可能表現為對不同人口統計數據的歪曲表述或不公平待遇,例如基於種族[4]、性別[5]、語言[6]和文化群體[ 6 ]的不同觀點與態度。 參考資料 Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. (原始內容存檔於2023-06-18). Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. (原始內容存檔於2023-03-09). Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn...
评论
发表评论