【五号雷达-数据快讯】WebInstruct - 大规模指令数据集

来源:米兰体育手机版    发布时间:2025-01-30 06:55:17
产品详情

  WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建,旨在经过从网络预练习语料库中提取指令数据,以增强壮言语模型的推理才能。该数据集包括1000万个高质量的指令-响应对,掩盖数学、科学、工程等多个范畴。WebInstruct的创立进程包括3个过程,首要,经过爬取多个检验网站创立多样化的种子数据集,运用fastText模型从Common Crawl召回相关文档;其次,运用开源大模型如Mixtral提取候选的Q-A对;最终,经过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理,以保证数据的质量。该数据集的共同之处在于,它彻底从网络发掘而来,无需人工众包或GPT-4蒸馏,为构建更优质的指令微调数据集供给了新的范式。

友情链接: 百度
Copyright 2020 米兰体育手机版. All Rights Reserved 苏ICP备19056139号-1