我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:神州彩票 > 儿童语言模型 >

NLP领域最优秀的8个预训练模型(附开源地址)

归档日期:04-23       文本归类:儿童语言模型      文章编辑:爱尚语录

  想踏上自然语言处理之旅吗?本文带来了八个优秀的预训练模型,帮助你实现梦想!

  如今,自然语言处理(Natural Language Processing,NLP)应用已经变得无处不在。我似乎总是不经意间发现一些网站和应用程序,以这样的或那样的形式利用了自然语言处理技术。简而言之,现在就是涉足自然语言处理领域的绝佳时机。自然语言处理应用能够快速增长,很大程度上要归功于通过预训练模型实现迁移学习的概念。在自然语言处理的背景下,迁移学习本质上是在一个数据集上训练模型,然后对该模型进行调整,以在不同的数据集上执行不同的自然语言处理功能。

  这一突破,使得每个人都能够轻松地完成任务,尤其是那些没有时间、也没有资源从头开始构建自然语言处理模型的人们。对于想要学习或过渡到自然语言处理的初学者来讲,它也堪称完美。

  作者已尽其所能设计了基准模型。我们可以在自己的自然语言处理数据集上使用预训练模型,而不是从头构建模型来解决类似的自然语言处理问题。

  在本文中,我将介绍一些顶级的预训练模型,你可以用它们来开始你的自然语言处理之旅,并复制该领域的最新研究成果。

  多用途模型是自然语言处理领域的热门话题。这些模型为机器翻译、问答系统、聊天机器人、情绪分析等我们感兴趣的自然语言处理应用提供了动力。这些多用途自然语言处理模型的核心组件是语言建模的概念。简单来说,语言模型的目的是预测序列中的下一个单词或字符。我们在这里看到每种模型时,都会理解这一点。

  如果你是自然语言处理的爱好者,那么你将会喜欢这一节。现在,让我们深入研究这 5 个最先进的多用途自然语言处理模型框架吧。对于每个模型,我都提供了研究论文和预训练模型的链接。让我们继续探索吧!

  ULMFiT 由 fast.ai 的 Jeremy Howard 和 DeepMind 的 Sebastian Ruder 提出并设计。你可以说 ULMFiT 是去年启动迁移学习派对的发行版。正如我们在本文中所述,ULMFiT 使用新的自然语言生成技术实现了最先进的结果。该方法包括在 Wikitext 103 数据集上训练的预处理语言模型进行微调,使其不会忘记以前所学的内容,从而将其微调为一个新的数据集。

  在文本分类任务方面,ULMFiT 的性能优于许多最先进的技术。我喜欢 ULMFiT 的原因是,它只需要很少的例子就可以产生这些令人印象深刻的结果。让像你我这样的人更容易理解,并在我们的机器上实现它!

  如果你好奇 ULMFiT 为什么叫这个名,我会告诉你,ULMFiT 其实就是 Universal Language Model Fine-Tuning(通用语言模型微调)的缩写。“Universal”(通用)这词用在这里非常贴切,因为这个框架几乎可以应用于任何自然语言处理任务。

  Transformer 架构是自然语言处理领域最近几乎所有主要发展的核心,2017 年由 Google 推出。当时,RNN 递归神经网络被用于语言任务,如机器翻译和问答系统。这种 Transformer 架构的性能优于 RNN 和 CNN(卷积神经网络)。而且训练模型所需的计算资源也大为减少。对自然语言处理的每个人来讲,这种结果是双赢的局面。看看下面的对比:

  “She found the shells on the bank of the river.”模型需要理解这里的“bank”是指河岸,而不是金融机构。Transformer 只需一步就能理解这一点。我建议你阅读下面给出链接的完整论文,以了解 Transformer 的工作原理。它会让你大吃一惊。

  自 Google 公布他们的结果以来,BERT 就一直在掀起波澜,然后 Google 开源了它背后的代码。我们可以讨论这是否标志着“自然语言处理领域的新时代”,但毫无疑问的是,BERT 是一个非常有用的框架,可以很好地推广到各种自然语言处理任务。

  ncoderRepresentations(双向编码器表示)的缩写,它从单词的两边(左边和右边)来考虑上下文。以前所有的努力方向,都是一次只考虑单词的一边,要么是左边,要么是右边。这种双向性有助于模型更好地理解使用单词的上下文。此外,BERT 的设计目标是能够进行多任务学习,也就是说,它可以同时执行不同的自然语言处理任务。BERT 是第一个无监督、深度双向的自然语言处理模型预训练系统。它只使用纯文本语料库进行训练。在发布的时候,BERT 在 11 个自然语言处理任务上取得了最先进的结果。这真是相当了不起的成就!你可以在短短几个小时内(在单个 GPU 上)使用 BERT 训练自己的自然语言处理模型(例如问答系统)。

  从长远来看,Google 的这一发行版对自然语言处理领域来说可能是一个非常重要的版本。如果你是一名菜鸟,这个概念可能会变得有点棘手,所以我建议你多读几遍来掌握它。我还会在这一节中提供一些资源,帮助你开始入门 Transformer-XL。想象一下,你正在读一本书,读到一半的时候,书中突然出现了某个单词或句子,而这些在这本书的开头都提到过。这时候,你我都能回忆起那些单词或句子指的是什么意思。但机器很难建立模拟长期依赖(long-term dependency)的模型,这是可以理解的。

  如上所述,实现这一点的一种方法是使用 Transformer。但它们是在固定长度的上下文实现的。换句话说,如果使用这种方法,就没有多少灵活性而言。

  而 Transformer-XL 很好地弥补了这一缺陷。它由 Google AI 团队开发,是一种新型的自然语言处理架构,可以帮助机器理解超出固定长度限制的上下文。

  正如你现在所预测的,Transformer-XL 在各种语言建模基准 / 数据集上实现了最新的、最先进的结果。下面是他们网页上的一张表,展示了这一点:

  目前这是一个颇有争议的条目。一些人可能会认为 GPT-2 的发布就是 OpenAI 的营销噱头。我当然理解他们的想法。然而,我还是认为,至少尝试一下 OpenAI 发布的代码还是很重要的。

  首先,我得为那些不知道我在说什么的人们提供一些背景信息。OpenAI 在 2 月份的时候发表了一篇博文,声称他们已经设计了一个自然语言处理模型,表现非常出色,以至于他们担心被恶意使用,而没有选择发布完整版本。这当然引起了社区的关注。

  GPT-2 经过训练后,可以预测 40GB 互联网文本数据的下一个出现的单词。这个框架也是基于 Transformer 的模型,该模型在 800 万个 Web 页面的数据集进行训练。他们在网站公布的结果令人震撼。这个模型能够根据我们输入的寥寥可数的句子就编织出一个完全清晰的故事,请看看下面的这个例子:

  为了供研究人员和工程师测试,开发人员发布了一个小得多的 GPT-2 版本。原始模型有 15 亿个参数,而开源的示例模型仅有 1.17 亿个。

  我们使用的大多数机器学习和深度学习算法都无法直接处理字符串和纯文本。这些技术要求我们必须先将文本数据转换为数字,然后才能执行任何任务(如回归和分类)。因此,简单来说,词嵌入就是为了将文本块转换为用于执行自然语言处理任务的数字。词嵌入格式通常尝试使用字典将单词映射到向量。

  你可以在下面的文章中,更深入地理解词嵌入、它的不同类型以及如何在数据集中使用它们。如果你不熟悉这个概念的话,我认为这份指南对你来说是必读的:

  在这一节中,我们将介绍自然语言处理领域中两个最先进的词嵌入。我还提供了教程的链接,这样你就可以对每个主题有实际的理解。

  不,这个 ELMo 可不是《Sesame Street》(《芝麻街》,美国芝麻街工作制坐坐的一档著名的儿童教育电视节目)的角色。但这个 ELMo(是Embedding from

  anguageModels 的缩写)在构建自然语言处理模的上下文非常有用。ELMo 是一种用向量和嵌入表示单词的新方法。这些 ELMo 词嵌入有助于我们在多个自然语言处理任务上获得最先进的结果,如下所示:

  让我们花点时间来理解 ELMo 的工作原理。回忆一下我们之前讨论过的双向语言模型。从本文中得到的提示:“ELMo 词向量是在双层双向语言模型(bidirectional language model,biLM)智商计算的。这个 biLM 模型有两层堆叠在一起。每层有两个通道:前向通道和后向通道。

  Flair 并不完全是词嵌入,而是词嵌入的组合。我们可以称 Flair 更多的是一个自然语言处理程序库,它结合了 GloVe、BERT、EMLo 等嵌入。Zalando Research 的优秀人员开发并开源了 Flair。

  我特别喜欢 Flair 的地方就是它能够支持多种语言。如此多的自然语言处理版本都只做英语方面的任务。如果自然语言处理想在全球范围内获得吸引力的话,我们就必须超越这一点!

  说到将自然语言处理扩展到英语之外,现在有一个已设置基准的库了。据作者声称,StandfordNLP 支持超过 53 种语言,这当然引起了我们的关注。

  这些模型并不只是仅在实验室内测试——在 2017 年、2018 年的 CoNLL 竞赛作者就曾使用 StandfordNLP 参赛。在 StandfordNLP 中打包的所有预训练自然语言处理模型都是基于 PyTorch 构建的,并且可以在你自己的注释数据上进行训练和评估。

  本文绝不是预训练自然语言处理模型的详尽清单。还有更多可用的模型,你可以在这个网站上查看其中的一些:下面是学习自然语言处理的一些有用资源:

本文链接:http://runhappyplace.com/ertongyuyanmoxing/3.html