NLP-课程资料集
快速上手搞NLP
这里放一个有课件并且有作业答案的链接 Deeplearning.ai-Natural-Language-Processing-Specialization 。 这个课程有以下内容:
Natural Language Processing with Classification and Vector Spaces
Natural Language Processing with Probabilistic Models
Natural Language Processing with Sequence Models
Natural Language Processing with Attention Models
建议大家看课程材料,然后去把课程任务做一遍,没时间的直接把别人做好的作业下载下来跑一边也不错,上手就是那么快。深度学习是怎么搞NLP
这本书是清华大学NLP组的刘知远老师、林衍凯大佬和孙茂松老师在2020年上半年出的书,书是全英文的,讲到的技术都很新,基本上是以表征学习的角度在讲深度学习在NLP的应用。在深度学习领域里面,各种模型(CNN、RNN、BERT等)只认识数字,如何将文本表示模型能理解的语义表示,这就是这本书讨论的东西。这本书开篇对表征学习做了整体的介绍,然后分各个课题展开细节。从最早的词表示开始讲起,也就是word2vec、pre-trained LanguageModel这些。好的词表示能够方便找到词之间的语义相关性,或者在下游任务中提供一个较好的初始值、提升模型的效果。接着讲语义构造的方法,怎么从词到句子再到文档。建议大家先看第一章建立一个体系,然后再按需看其他的章节,查看目录,对感兴趣的点进行细看。从Word Embedding到Bert模型——自然语言处理预训练技术发展史
对于当前 NLP 的发展方向,我个人觉得有两点非常重要,一个是需要更强的特征抽取器,目前看 Transformer 会逐渐担当大任,但是肯定还是不够强的,需要发展更强的特征抽取器;第二个就是如何优雅地引入大量无监督数据中包含的语言学知识,注意我这里强调地是优雅,而不是引入,此前相当多的工作试图做各种语言学知识的嫁接或者引入,但是很多方法看着让人牙疼,就是我说的不优雅。目前看预训练这种两阶段方法还是很有效的,也非常简洁,当然后面肯定还会有更好的模型出现。Stanford-NLP-Course 斯坦福传统NLP技术作业和作业答案。
课件地址kaggle——text-preprocessing-using-python