★★★★★【全中文自然語言處理】★★★★★
還在對huggingface上的預訓練模型(bert-base)等都是針對歐美語系感到困擾嗎?
本書就是為中文世界讀者專屬打造的,讓你一窺中文模型的自然語言處理!
自然語言處理(NLP)號稱「人工智慧皇冠上的珍珠」,是AI世界中最先進也是應用最廣的領域。從早期的知識模型,到中間的統計模型,一直到最新的神經網路模型,早已服務於你所看到的任何大型系統,包括Google的關鍵字排名、Google翻譯、購物網站推薦系統、Siri/OK Google等,都是NLP產出的精華。如果你還以為CNN、GAN等圖型處理的AI架構很有趣,換到NLP領域中,你會發現更多驚奇!
本書從預訓練模型的角度對理性主義和經驗主義這兩次重要的發展進行了系統性的論述,能夠幫助讀者深入了解這些技術背後的原理、相互之間的聯繫以及潛在的局限性,對於當前學術界和工業界的相關研究與應用都具有重要的價值。本書由中文自然語言處理的首席單位「哈爾濱工業大學」完成,其在Huggningface的Transformer模型上有貢獻多個純中文模型,由這些專家親著的內容,絕對是你想了解中文NLP專業的第一選擇。
本書技術重點
✪詞的獨熱表示、詞的分散式表示、文字的詞袋表示
✪文字分類問題、結構預測問題、序列到序列問題
✪NLTK 工具集、LTP 工具集、大規模預訓練資料
✪多層感知器模型、卷積神經網路、循環神經網路、注意力模型
✪情感分類實戰、詞性標注實戰
✪Word2vec 詞向量、GloVe 詞向量
✪靜態詞向量預訓練模型、動態詞向量預訓練模型
✪預訓練語言模型、GPT、BERT
✪模型蒸餾與壓縮、DistilBERT、TinyBERT、MobileBERT、TextBrewer
✪生成模型、BART、UniLM、T5、GPT-3、可控文字生成
✪多語言融合、多媒體融合、異質知識融合
✪VideoBERT、VL-BERT、DALL·E、ALIGN
本書特色
◎不只英文,還有中文模型的自然語言處理
以往的自然語言處理專書多以處理歐美語系為主,令使用中文為母語的我們甚感遺憾,如今,本書就是你第一本可深入了解「中文模型的自然語言處理」最棒的書籍!
◎中文自然語言處理的首席單位專家親著
本書由中文自然語言處理的首席單位「哈爾濱工業大學」完成,其在Huggningface的Transformer模型上有貢獻多個純中文模型,由這些專家親著的內容,絕對是你想了解中文NLP專業的第一選擇。
◎精美圖表、專業講解
本書內含作者精心製作的圖表,有助於讀者理順思緒、更好地學習自然語言處理的奧妙。
作者
車萬翔
博士,在ACL、EMNLP、AAAI、IJCAI等國內外高水準期刊和會議上發表學術論文50餘篇,其中AAAI 2013年的文章獲得了論文提名獎,論文累計被引用6,000餘次(Google Scholar資料),H-index值為40。
郭江
博士後研究員,研究方向為自然語言處理與機器學習。在人工智慧、自然語言處理領域國際重要會議及期刊(如ACL、EMNLP、AAAI等)發表論文20餘篇。是被業界廣泛應用的中文語言技術平臺LTP的主要研發者之一。2018年,獲中文資訊學會「優秀博士學位論文」提名獎。
崔一鳴
多次獲得機器翻譯、機器閱讀理解、自然語言理解評測冠軍,其中包括機器閱讀理解權威評測SQuAD、自然語言理解權威評測GLUE等。研製的中文閱讀理解及預訓練模型開源專案被業界廣泛應用,在GitHub累計獲得1萬以上星標,HuggingFace平臺月均調用量達到100萬次。發表學術論文30餘篇(包括ACL、EMNLP、AAAI等高水準論文),申請發明專利20餘項。
目錄
01 緒論
1.1 自然語言處理的概念
1.2 自然語言處理的困難
1.3 自然語言處理任務系統
1.4 自然語言處理技術發展歷史
02 自然語言處理基礎
2.1 文字的表示
2.2 自然語言處理任務
2.3 基本問題
2.4 評價指標
2.5 小結
03 基礎工具集與常用資料集
3.1 NLTK 工具集
3.2 LTP 工具集
3.3 PyTorch 基礎
3.4 大規模預訓練資料
3.5 更多資料集
3.6 小結
04 自然語言處理中的神經網路基礎
4.1 多層感知器模型
4.2 卷積神經網路
4.3 循環神經網路
4.4 注意力模型
4.5 神經網路模型的訓練
4.6 情感分類實戰
4.7 詞性標注實戰
4.8 小結
05 靜態詞向量預訓練模型
5.1 神經網路語言模型
5.2 Word2vec 詞向量
5.3 GloVe 詞向量
5.4 評價與應用
5.5 小結
06 動態詞向量預訓練模型
6.1 詞向量——從靜態到動態
6.2 以語言模型為基礎的動態詞向量預訓練
6.3 小結
07 預訓練語言模型
7.1 概述
7.2 GPT
7.3 BERT
7.4 預訓練語言模型的應用
7.5 深入了解BERT
7.6 小結
08 預訓練語言模型進階
8.1 模型最佳化
8.2 長文字處理
8.3 模型蒸餾與壓縮
8.4 生成模型
8.5 小結
09 多模態融合的預訓練模型
9.1 多語言融合
9.2 多媒體融合
9.3 異質知識融合
9.4 更多模態的預訓練模型
9.5 小結
A 參考文獻
B 術語表