范雅惠PowerPoint轉場Transition動畫Animation大語言模型
大語言模型(英語:large language model,LLM)是一種語言模型,由具有許多參數(通常數十億個權重或更多)的人工神經網絡組成,使用自監督學習或半監督學習對大量未標記文本進行訓練[1]。大型語言模型在2018年左右出現,並在各種任務中表現出色[2]。
儘管這個術語沒有正式的定義,但它通常指的是參數數量在數十億或更多數量級的深度學習模型[3]。大型語言模型是通用的模型,在廣泛的任務中表現出色,而不是針對一項特定任務(例如情感分析、命名實體識別或數學推理)進行訓練[2]。
儘管在預測句子中的下一個單詞等簡單任務上接受過訓練,但發現具有足夠訓練和參數計數的神經語言模型可以捕獲人類語言的大部分句法和語義。 此外大型語言模型展示了相當多的關於世界的常識,並且能夠在訓練期間「記住」大量事實[2]。
雖然 ChatGPT 為代表的LLM在生成類人文本方面表現出了卓越的能力,但它們很容易繼承和放大訓練數據中存在的偏差。這可能表現為對不同人口統計數據的歪曲表述或不公平待遇,例如基於種族[4]、性別[5]、語言[6]和文化群體[6]的不同觀點與態度。
參考資料
- Goled, Shraddha. Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. May 7, 2021 [2023-06-08]. (原始內容存檔於2023-06-18).
- Manning, Christopher D. Human Language Understanding & Reasoning. Daedalus. 2022, 151 (2): 127–138 [2023-06-08]. S2CID 248377870. doi:10.1162/daed_a_01905. (原始內容存檔於2023-03-09).
- Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium 6. 2021 [2023-06-08]. (原始內容存檔 (PDF)於2023-12-21).
- Kotek, Hadas; Dockum, Rikker; Sun, David. Gender bias and stereotypes in Large Language Models. Proceedings of The ACM Collective Intelligence Conference. CI '23 (New York, NY, USA: Association for Computing Machinery). 2023-11-05. ISBN 979-8-4007-0113-9. doi:10.1145/3582269.3615599.
- Davidson, Thomas; Bhattacharya, Debasmita; Weber, Ingmar. Roberts, Sarah T.; Tetreault, Joel; Prabhakaran, Vinodkumar; Waseem, Zeerak , 編. Racial Bias in Hate Speech and Abusive Language Detection Datasets. Proceedings of the Third Workshop on Abusive Language Online (Florence, Italy: Association for Computational Linguistics). 2019-08. doi:10.18653/v1/W19-3504.
- Queenie Luo; Michael J. Puett; Michael D. Smith. A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube. arXiv.
评论
发表评论