伴随着大模型开发和应用的数据火热发展,作为大模型核心基础组件的代更 Embedding 重要性愈发凸显。智源于一月前发布的智源开源可商用中英文语义向量模型 BGE(BAAI General Embedding)在社区收获颇高关注度,Hugging Face 累计下载量达到数十万。开放当前,亿条语义BGE 快速迭代推出 1.5 版本并公布多项更新,向量训练型持续迭新其中,模型E模BGE 首次开源 3 亿条大规模训练数据,数据帮助社区训练同类模型,代更推动该领域技术发展。智源
业界语义向量模型训练数据首次开源,达 3 亿中英文数据。
BGE 的出色能力很大程度上源于其大规模、多样化的训练数据。此前,业界同行鲜有发布同类数据集。在本次更新中,智源首次将 BGE 的训练数据向社区予以开放,为推动此类技术进一步发展打下了基础。
此次发布的数据集 MTP 由总计 3 亿条中英文关联文本对构成;其中,中文记录达 1 亿条,英文数据达 2 亿条。数据收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等语料,经过必要的采样、抽取、清洗获得。
详细细节请参考 Data Hub:https://data.baai.ac.cn
MTP 为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供重要基础。
基于社区反馈,BGE 在其 1.0 的版本之上进行了进一步优化,其表现更加稳健、出色。具体升级如下:
值得一提的是,日前,智源联合 Hugging Face 发布了一篇技术报告,报告提出用 C-Pack 增强中文通用语义向量模型。
《C-Pack: Packaged Resources To Advance General Chinese Embedding》
链接:https://arxiv.org/pdf/2309.07597.pdf
BGE 发布自以来受到大模型开发者社区关注,目前 Hugging Face 累计下载量达到数十万,且已被 LangChain、LangChain-Chatchat、llama_index 等知名开源项目集成。
Langchain 官方、LangChain 联合创始人兼首席执行官 Harrison Chase、Deep trading 创始人 Yam Peleg 等社区大 V 对 BGE 表示关注。
坚持开源开放,促进协同创新,智源大模型技术开体系 FlagOpen BGE 新增 FlagEmbedding 新版块,聚焦于 Embedding 技术和模型,BGE 是其中明星开源项目之一。FlagOpen 致力于打造大模型时代的 AI 技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。
责任编辑:张燕妮 来源: 机器之心 AI训练(责任编辑:焦点)
光谱资讯游戏《富甲天下5》Steam商店页面上线 8月10日发售
《战地无疆》今日上线!联动多品牌送海量福利,更有百万赛事豪礼
海关总署:前10个月煤、天然气进口量价齐升 进口铁矿砂9.33亿吨
英伟达公布DLSS 3.5!DLSS新版本可增强光追视觉效果、今秋发布