OpenAI的競爭者Anthropic發表的最新人工智慧研究論文〈Decomposing Language Models With Dictionary Learning〉,提出一種稱為字典學習的方法,增加對神經網路的解釋性。這項研究讓Anthropic更能夠監控模型,進而引導模型的行為,提高企業和社會在採用人工智慧的安全性和可靠性。
由於神經網路是以資料進行訓練,而非根據規則的程式設計,每一步訓練,都會更新數百萬甚至數十億個參數,最終使模型得以更好地完成任務,但Anthropic提到,雖然研究人員可以理解訓練網路的數學運算,但是卻不真正明白模型是如何從一堆數學運算中,導出最後的行為。而這樣的狀況,使得研究人員很難判斷模型出現的問題,而且也難以進行修復。
雖然現今人類已經進行了數十年的神經科學研究,對於大腦的運作有了深入的了解,但是仍然有很多大腦中的謎團尚待解密。類似的情況,人工神經網路也存在難以完全理解的部分,只不過與真實大腦不同,研究人員可以透過實驗來探索其中的運作機制。
儘管如此,過去對神經元的實驗並沒有太多幫助,研究人員透過干預單一神經元,觀察該神經元對特定輸入的反應,他們發現,單一神經元的活化,與神經網路的整體行為並不一致。在小語言模型中,單一神經元會在英語對話、HTTP請求或是韓語文本等不相關的上下文都很活躍,電腦視覺模型中的同一神經元,可能會對貓臉和汽車都有反應。也就是說,在不同的情況下,神經元的活化可以代表著不同意義。
在Anthropic最新的研究中,研究人員擴大分析單位,不在單一的神經元中尋找規律,而是運用一種稱為特徵(Feature)的概念。每個特徵都會對應一群神經元活動模式,這為研究人員提供了新的分析途徑,能夠將複雜的神經網路解構成更容易理解的單位。
在Transformer語言模型中,研究人員成功將一個包含512個神經元的層,分解成超過4,000個特徵。這些特徵涵蓋了DNA序列、法律用語、HTTP請求、希伯來文和營養標示等範疇。此外,研究人員也確認了特徵的解釋性遠比單一神經元更高。
論文中也提到,研究人員發展了自動解釋方法,來驗證特徵的可解釋性。藉由大型語言模型來生成小模型特徵的描述,並以另一個模型的預測能力對描述進行評分,而實驗結果證實,特徵的得分仍高於神經元,如此便證實了特徵的活躍和模型下游行為具一致性。研究人員還發現,在不同模型間所學到的特徵大致通用,因此一個模型從特徵得到的經驗,可能適用於其他模型。
這項研究的貢獻,在於克服單一神經元的不可解釋性,透過將神經元分群成特徵,研究人員將能夠更好地理解模型,並且發展更具安全性和可靠性的人工智慧服務。未來Anthropic研究人員會擴大研究範疇,理解大型語言模型的行為。
熱門新聞
玻璃钢生产厂家宿州卡通玻璃钢雕塑成都市郫县玻璃钢雕塑公司成都商场美陈费用浙江方形玻璃钢花盆辽阳玻璃钢雕塑价格长安玻璃钢雕塑制品南通玻璃钢卡通雕塑厂家云南玻璃钢雕塑设计制作哪里好信阳哪里有玻璃钢人物雕塑抚州学校玻璃钢雕塑玻璃钢蚂蚁 卡通雕塑商场美陈公司新郑甘肃人像玻璃钢雕塑制作嘉兴市景观雕塑玻璃钢产品云南环保玻璃钢雕塑制作韶关人像雕塑玻璃钢楚雄玻璃钢雕塑直销亳州动物玻璃钢雕塑玻璃钢雕塑工艺说明玻璃钢马车雕塑图片陆丰玻璃钢仿铜雕塑新密园林景观校园玻璃钢景观雕塑玻璃钢雕塑漆义乌景观玻璃钢雕塑乳山玻璃钢牛雕塑江西特色玻璃钢雕塑昆明哪里有雕塑玻璃钢修复的封开玻璃钢卡通雕塑公司吉林玻璃钢雕塑系列金昌广场玻璃钢雕塑设计香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万