首页
BOB网页客户端
BOB体育官网登陆
BOB注册首页

BOB体育官网登陆

你的位置:BOB(中国)官方入口-BOB投注网页版 > BOB体育官网登陆 > BOB体育官网登陆 NLP新人prompt跨界出圈,清华刘知远最新论文将它行使到VLM图像端

BOB体育官网登陆 NLP新人prompt跨界出圈,清华刘知远最新论文将它行使到VLM图像端

发布日期:2021-10-13 13:30    点击次数:108

本文经AI新媒体量子位授权转载BOB体育官网登陆,转载请有关出处。

NLP的新人prompt,比来着实有点火。

还跨界火到了VLM。

像OpenAI的CLIP,和南洋理工大学的CoOp都用了这栽思路。

现在,清华副教授刘知远团队最新发布的视觉说话模型论文中,也挑出了一栽基于prompt的新手段。

据论文外示,这也是首次将prompt用于cross-model和零样本/少样本学习视觉定位中。

从现在的NLP和VLM模型望,不少基于prompt的模型成果都不错,让搞CV的同学们也有点心动——能不克给吾们也整一个?

那么,prompt原形好在哪,行使于图像端后是否也能收获不错的成果?

一首望望。

与微调不同在哪? 最初,在NLP模型还不太大的时候,行家会采用“预训练+微调”的手段设计针对特定义务的模型。

这栽模式下,钻研人员会预先训练出一个成果比较好的模型,再在保留大片面模型参数的情况下,按照特定义务调整片面参数,使得它在这一义务上达到最好的成果。

△例如以BERT行为预训练模型

然而,随着预训练模型变得越越大,微调的代价也在增补,钻研人员有点吃不用了,最先找更好的手段。

prompt就在这个时候展现了,只不过它这次是针对下游义务进走调整。

它有点像是一栽输入模板,用给预训练模型“做出挑示”,预训练模型一“望到”它,就清新本身要完善什么义务。

例如,在心理分类义务中,期待预训练模型能体会到输入句子的心理,并给出形容词对它分类:

输入“Ilovethismovie.”后,挑前给定一个prompt“Thismovieis[mask]”,让预训练模型一望到它,就清新本身要输出“great/nice”等夸赞的形容词。

如许训练后,预训练模型就能在望到对答prompt时,选出准确的词汇类型,而不是“跑偏”往做别的事情。

原由prompt在NLP周围的行使成果挺好,所以在与NLP有关的VLM模型中,不少钻研人员也最先尝试这栽手段。

清华将它用到图像端 自然,最初行使prompt的VLM模型,大众也还照样是将它行使在文本端。

据知乎@陀飞轮介绍,像OpenAI的CLIP、NTU的CoOp这两个VLM模型,BOB体育官网登陆prompt行使都与NLP中的PET模型有点像。

从它们的模型设计望都能很清晰从文本端望出prompt的影子像CLIP中的“Aphotoofa[mask]”:

以及CoOp在CLIP上进一步改进的、在训练中能够自走优化的prompt:

这些prompt的行使团体改进了VLM模型团体的输出成果。

不过这也基本都是VLM在文本端的行使prompt到底适不正当被用在图像端上?

最新自清华刘知远团队的论文中就尝试着在VLM的图像端中以涂色的手段竖立了一栽visualsub-prompts。

自然文本端也对行使上了prompt不过据刘知远先生介绍prompt在文本端的行使感觉不及以十足发挥prompttuning的作用所以这篇论文尝试了一栽cross-modalprompttuning的手段。

从论文的测试终局望这栽手段在少样本学习的情况下基本能取得比微调更好的成果。

不过这也照样prompt在VLM上的另一栽尝试。

它原形适不正当用处理CV周围的图像题目?

CV周围能借鉴吗? 在知乎上有不少博主给出了本身的望法。

知乎@陀飞轮从手段上给出了两条路径:

倘若是纯CV倾向的prompt也就是相通于ViT将拆分patch每个patch实际上能够望成一个字符那么也能够设计patch的prompt对模型进走训练这其中也能够分成生成式两栽手段。

知乎@yearn则认为就现在望continuousprompt是最有能够transfer到CV周围的一系列做事。比来transformer准备大一统CVNLP将image输入转化为patch的形态也让钻研人员更方便借鉴NLP的手段学习prompt。

自然@yearn也外示要想真实将prompt行使到CV周围还存在两个必要解决的难题:

1、CV还不存在BERTGPT如许具有总揽力的预训练模型所以近期内能够很难将prompt做few-shotlearning这一套搬过。

2、CV的downstreamtask更添复杂感觉检测分割这类义务要把prompt调work是一个专门大的做事量。

但也有匿名用户直接认为图像上只能用专门难受的手段做一些义务。自然视频逆而能够行使得更好。

那么你认为prompt能行使在CV周围吗?

刘知远团队最新论文: https://arxiv.org/abs/2109.11797

知乎回答: @陀飞轮:https://www.zhihu.com/question/487096135/answer/2127127513 @yearn:https://www.zhihu.com/question/487096135/answer/2124603834

伦敦警察部队正在购买大量的面部识别技术 AI学者邢波:机器学习匮乏清亮理论框架需重定评估现在的手段 2021年Linux基金会技术顾问委员会选举终局公布 为什么机器学习解决网络坦然题目总是战败:谈谈特征空间 想增补营业收好吗?这五项人造智能策略将有所协助

Powered by BOB(中国)官方入口-BOB投注网页版 @2013-2021 RSS地图 HTML地图