摩登7机器人
CHUANGZE ROBOT
当前位置:首页 > 新闻资讯 > 电商 > FashionBERT 电商领域多模态研究:如何做图文拟合

FashionBERT 电商领域多模态研究:如何做图文拟合

来源:阿里机器智能     编辑:摩登7   时间:2020/6/2   主题:其他 [加盟]
随着 Web 技术发展,互联网上包含大量的多模态信息(包括文本,图像,语音,视频等)。从海量多模态信息搜索出重要信息一直是学术界研究重点。多模态匹配核心就是图文匹配技术 (Text and Image Matching),这也是一项基础研究,在非常多的领域有很多应用,例如图文检索 (Cross-modality IR),图像标题生成 (Image Caption),图像问答系统 (Vision Question Answering), 图像知识推理 (Visual Commonsense Reasoning)。但是目前学术界研究重点放在通用领域的多模态研究,针对电商领域的多模态研究相对较少,然而电商领域也非常需要多模态匹配模型,应用场景特别多。本文重点关注电商领域图文多模态技术研究。

多模态匹配研究简史

跨模态研究核心重点在于如何将多模态数据匹配上,即如何将多模态信息映射到统一的表征空间。早期研究主要分成两条主线:Canonical Correlation Analysis (CCA) 和Visual Semantic Embedding (VSE)。

CCA 系列方法

主要是通过分析图像和文本的 correlation,然后将图像和文本到同一空间。这一系列的问题论文完美,但是效果相对深度学习方法还是有待提高的。虽然后期也有基于深度学习的方案 (DCCA),但是对比后面的 VSE 方法还有一定差距。

VSE 系统方法

将图像和文本分别表示成 Latent Embedding,然后将多模态 Latent Embedding 拟合到同一空间。VSE 方法又延伸出来非常多的方法例如 SCAN,PFAN。这些方法在通用图文匹配上已经拿到不错效果。

随着 pre-training 和 self-supervised 技术在 CV 和 NLP 领域的应用。2019 年开始,有学者开始尝试基于大规模数据,使用预训练的 BERT 模型将图文信息拟合同一空间。这些方法在通用领域取得很好的效果,这一系列的方法可以参看 VLBERT 这篇 Paper。

基于 BERT 的预训练图文模型的主要流程:

1)利用图像目标检测技术先识别图像中的 Region of Interests(RoIs)。

2)把 ROI 当做图像的 token,和文本 token 做 BERT 多模态融合,这里面有两个方案:

Single-stream:以 VLBERT 为代表,直接将图像 token 和文本 token 放入到 BERT 做多模态融合。

Cross-stream:以 ViLBERT 为代表,将图像 token 和文本 token 先做初步的交互,然后在放入到 BERT。

摩登7尝试了 ViLBERT 方法,发现在通用领域效果确实不错。但是在电商领域,由于提取的 ROI 并不理想,导致效果低于预期。主要原因在于:

1)电商图像 ROI 太少

电商图像产品单一,背景简单提取 ROI 很少,如图 1(c)。统计来看,通用领域 MsCoCo 数据,每张图像可以提取 19.8 个 ROI,但是电商只能提取 6.4 个 ROI。当然摩登7可以强制提取最小的 ROI,比如 ViLBERT 要求在 10~36 个,VLBERT 要求 100 个。但是当设定最小提取的 ROI 后,又提取了太多了重复的 ROI,可以看图 1(e)。

2)电商 ROI 不够 fine-grained

电商图像单一,提取的 RoIs 主要是 object-level 的产品 (例如,整体连衣裙,T-shirt 等) 。相对文本来说,不够细粒度 fine-grain,比如文本里面可以描述主体非常细节属性 (如,圆领,九分裤,七分裤等等)。这就导致图像 ROI 不足以和文本 token 匹配,大家可以对比一下电商领域的图 1(c) 和图 1(d)。再看下通用领域的图 1(a) 和图 1(b),你会发现通用领域简单一些,只要能将图像中的主体和文本 token alignment 到一起,基本不会太差。

3)电商图像 ROI 噪音太大

如图 1(f) 中提取的模特头,头发,手指,对于商品匹配来说用处不大。

这也就解释了,电商领域也采用现有的 ROI 方式,并不能得到非常理想的结果。如果说,针对电商领域重新训练一个电商领域的 ROI 提取模型,需要大量的数据标注工作。那么有没有简单易行的方法做图文匹配拟合。




FashionBERT 图文匹配模型

本文摩登7提出了 FashionBERT 图文匹配模型,核心问题是如何解决电商领域图像特征的提取或者表达。Google 在 2019 年年中发表了一篇文章图像自监督学习模型 selfie,主要思路是将图像分割成子图,然后预测子图位置信息。从而使模型达到理解图像特征的目的,这个工作对摩登7启发很大。摩登7直接将图像 split 相同大小的 Patch,然后将 Patch 作为图像的 token,和文本进行拟合,如图二所示。使用 Patch 的好处:

图像 Patch 包含了所有图像的细节信息。

图像 Patch 不会出现重复的 ROI 或者太多无用的 ROI。

图像 Patch 是天然包含顺序的,所以解决 BERT 的 sequence 问题。

FashionBERT 整体结构如图 2,主要包括 Text Embedding, Patch Embedding, Cross-modality FashionBERT,以及 Pretrain Tasks。

Text Embedding

和原始 BERT 一样,先将句子分成 Token,然后摩登7采用 Whole Word Masking 技术将整个 Token 进行 masking。Masking 的策略和原始的 BERT 保持一致。

Patch Embedding

和 Text Embedding 类似,这里摩登7将图片平均分成 8*8 个 patch。每个 Patch 经过 ResNet 提取 patch 的图像特征,摩登7提取 2048 维图像特征。Patch mask 策略,摩登7随机 masked 10% 的 patch,masked 的 patch 用 0 代替。同时在 Segment 字段摩登7分别用 "T" 和 "I" 区分文 本token 输入和图像 patch 输入。

Cross-modality FashionBERT

采用预训练的 BERT 为网络,这样语言模型天然包含在 FashionBERT 中。模型可以更加关注图文匹配融合。

FashionBERT 模型在 pretrain 阶段,总共包含了三个任务:

1  Masked Language Modeling (MLM)

预测 Masked Text Token,这个任务训练和参数摩登7保持和原始的 BERT 一致。

2  Masked Patch Modeling (MPM)

预测 Masked Patch,这个任务和 MLM 类似。但是由于图像中没有 id 化的 token。这里摩登7用 patch 作为目标,希望 BERT 可以重构 patch 信息,这里摩登7选用了 KLD 作为 loss 函数。

3  Text and Image Alignment

和 Next Sentence Prediction 任务类似,预测图文是否匹配。正样本是产品标题和图片,负样本摩登7随机采样同类目下其他产品的图片作为负样本。

这是一个多任务学习问题,如何平衡这些任务的学习权重呢?另外,还有一个问题,目前很多实验指出 BERT 中 NSP 的效果并不一定非常有效,对最终的结果的影响不是特别明朗。但是对于图文匹配来说,Text and Image Alignment 这个 loss 是至关重要的。那么如何平衡这几个任务的学习呢?这里摩登7提出 adaptive loss 算法,摩登7将学习任务的权重看做是一个新的优化问题,如图 3 所示。FashionBERT 的 loss 是整体 loss 的加和,由于只有三个任务,其实摩登7可以直接得到任务权重 W 的解析解(具体的求解过程可以参考摩登7论文,这里不再赘述)。

整个 w 的学习过程可以看做是一个学生想学习三门功课,w 的作用是控制学习的关注度,一方面控制别偏科,一方面总成绩要达到最高。具体 adaptive loss 算法,可以参看论文。从实际的效果来看 w,随着训练的迭代关注不同的任务,达到对任务做平衡的目的。

业务应用

目前 FashionBERT 已经开始在 Alibaba 搜索多模态向量检索上应用,对于搜索多模态向量检索来说,匹配任务可以看成是一个文文图匹配任务,即 User Query (Text)-Product Title (Text) - Product Image (Image) 三元匹配关系。FashionBERT 从上面的模型可以看到是一个基础的图文匹配模型,因此摩登7做了 Continue Pretrain 工作,同时加入 Query,Title,Image Segment 区分,如图四所示。和 FashionBERT 最大的区别在于摩登7引入三个 segment 类型,“Q”,“T”,“I” 分别代表 Query,Title,Image。






浙江制定全国首个直播电商行业规范标准

据直播电商的不同参与角色,分别确立了从主体资格、亮证亮照、商家和主播入驻审核、规则建立、直播监控、违规处置以及消费者权益保障等全流程的规范体系

直播电商需规范 首部全国性“直播带货”标准立项制定

首部全国性社团标准《视频直播购物运营和服务基本规范》和《网络购物诚信服务体系评价指南》两项标准(以下简称《标准》),预计将于7月份正式发布执行

德勤携手谷歌联合发布《2020中国时尚跨境电商发展报告》

不同发展阶段、不同规模和资源禀赋的企 业选择了不同的出海策略和演进路径,通过对国内企业的实地调研,总结其发展模式有三 类:流量导向型、产品导向型和品牌导向型

电商平台必须的十大商标核心类别

第9类:APP、计算机程序、电子设备(产品) ;第16类:印刷物、杂志,包装物;第35类:广告服务、电子商务、营销策划;第42类:计算机编程服务

带货的逻辑:直播电商产业链研究报告

2020年直播电商更火了,预计在2020年将达到8570亿元,近三年年复合增长率高达314%,行业处于高速发展阶段

2020年中国直播电商生态研究报告

直播电商带来的增量与机会主要在于为产业链提效降本及为参与者带来新机会点。

全球最大B2B跨境电商平台阿里国际站,未来三年GMV如何突破1000亿美元

阿里巴巴国际站作为最大的B2B跨境电商平台以流量服务与跨境供应链服务赋能外贸出口企业,为其提供跨境出口的一站式解决方案

巨量引擎联合抖音电商首次发布《抖音直播营销实战经验手册第一期》

对抖音上半年的商业直播案例进行了全盘梳理和分析,针对“品牌宣传+电商带货”两大最具代表性的开播目的,围绕人、货、场三个层面分享实战经验

电商AI客服机器人《乐语助人》模拟金牌客服的回复

面向淘宝、天猫等平台的AI客服机器人,具备高精准的语言理解能力,可模拟金牌客 服的回复逻辑,辅助人工客服进行客服咨询接待、业务问题处理、智能推荐、客情维系等

GrowingIO推出《私域电商数据驱动增长白皮书》

电商正经历由“粗放式获取流量”到“精细化运营用户”的转变,而私域构建则是这一转变的关键点

艾瑞咨询:2020年中国企业采购电商市场研究报告

报告首先通过对中国企业采购电商市场发展方向的研究,揭示出疫情不改变行业发展长期向好态势,中小微企业数字化速度加快,聚焦中小微企业采购的电商平台将在未来获得更大优势

阿里:迈向万亿市场的直播电商

了解直播电商的发展现状、机遇和挑战,助力可持续发展,毕马威联合阿里研究院,实地走访了大量业内专家和从业人员,并针对 MCN 机构、品牌商家发放调研问卷
资料获取
电商
== 最新资讯 ==
ChatGPT:又一个“人形机器人”主题
ChatGPT快速流行,重构 AI 商业
中国机器视觉产业方面的政策
中国机器视觉产业聚焦于中国东部沿海地区(
从CHAT-GPT到生成式AI:人工智能
工信部等十七部门印发《机器人+应用行动实
全球人工智能企业市值/估值 TOP20
摩登7智能机器人集团股份有限公司第十一期上
谐波减速器和RV减速器比较
机器人减速器:谐波减速器和RV减速器
人形机器人技术难点 高精尖技术的综合
机器人大规模商用面临的痛点有四个方面
青岛市机器人产业概况:机器人企业多布局在
六大机器人产业集群的特点
机械臂-高度非线性强耦合的复杂系统
== 机器人推荐 ==
迎宾讲解服务机器人

服务机器人(迎宾、讲解、导诊...)


机器人公司 机器人应用 智能医疗 物联网 机器人排名 机器人企业 机器人开发 独角兽 消毒机器人品牌
版权所有 摩登7智能机器人集团股份有限公司 中国运营中心:上海 科技园8号楼5层 中国生产中心:山东日照解放路71号
销售1:4006-935-088 销售2:4006-937-088 客服电话: 4008-128-728