Navigation menu
研讨配景在年夜模子时期,信息检索须要满意人们日益多样化的需要,这种需要不只表现在用户的多模态查问输入上,也表现在对多模态信息的需要上。比方,用户可能拍摄一张汽车表面图,并盼望获取该款汽车的指定信息。在这种情形下,多模态检索器须要综公道解用户的图像跟文本指令,并从多种模态的信息中检索出最相干的内容。但是,现有的多模态检索模子平日基于单一情势的跨模态配对数据(如图像 - 文本对)停止练习,这使得它们难以处置庞杂的组合模态输入。比年来,指令微调技巧在文本检索跟年夜言语模子等范畴曾经证实了其加强多义务才能的无效性。但是,以往的多模态检索指令数据集年夜多依附人工标注,限度了年夜范围多样化数据的获取。为处理这一限度,智源 BGE 团队翻新性地提出了 MegaPairs 数据分解方式。该方式经由过程BET9十年信誉备用登录入口从现有年夜范围图像数据会合发掘多样的关系图像对,并应用开源多模态年夜模子跟年夜言语模子停止主动化指令天生,从而构建出高品质、可扩大、泛化性强的多模态检索指令微调数据集。团队基于 MegaPairs 的高品质数据,练习并开源多模态向量模子 BGE-VL 系列,实现了以后最佳的多模态检索才能。MegaPairs 结构MegaPairs 提出从现有年夜范围图文语料库中发掘并结构年夜范围、高品质多模态检索指令数据集。详细地,MegaPairs 的结构重要分为两个要害步调:(1)应用多种类似度模子从图像数据会合发掘多样的图像对;(2)应用开源的多模态年夜模子跟年夜言语模子分解开放域检索指令。以下图为例,MegaPairs 起首从年夜范围图像数据会合采样一对图像 - 文本数据作为查问数据。而后,应用多种图像跟文原形似度模子,发掘出多组关系图像对(比方:同款汽车的外饰与内饰、同款汽车差别涂装、同品牌汽车将来观点图等)。接着,针对这些发掘出的图像对,MegaPairs 采取两阶段标注方式:起首应用多模态年夜言语模子(MLLM)总结两张图片之间的关系关联,而后应用年夜言语模子(LLM)撰写终极的开放域检索指令。值得留神的是,MegaPairs 完整基于开源数据集跟开源模子停止主动化构建跟标注。经由过程引入多个类似度模子跟两阶段标注方式,MegaPairs 可能在无需人工参加的情形下,扩大性地天生年夜范围、高品质且多样化的多模态检索指令数据集。