产品详情
WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建,旨在经过从网络预练习语料库中提取指令数据,以增强壮言语模型的推理才能。该数据集包括1000万个高质量的指令-响应对,掩盖数学、科学、工程等多个范畴。WebInstruct的创立进程包括3个过程,首要,经过爬取多个检验网站创立多样化的种子数据集,运用fastText模型从Common Crawl召回相关文档;其次,运用开源大模型如Mixtral提取候选的Q-A对;最终,经过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理,以保证数据的质量。该数据集的共同之处在于,它彻底从网络发掘而来,无需人工众包或GPT-4蒸馏,为构建更优质的指令微调数据集供给了新的范式。