产品展示

【五号雷达-数据快讯】WebInstruct - 大规模指令数据集

来源：米兰体育手机版发布时间：2025-01-30 06:55:17

产品详情

WebInstruct数据集由卡内基梅隆大学和滑铁卢大学联合构建，旨在经过从网络预练习语料库中提取指令数据，以增强壮言语模型的推理才能。该数据集包括1000万个高质量的指令-响应对，掩盖数学、科学、工程等多个范畴。WebInstruct的创立进程包括3个过程，首要，经过爬取多个检验网站创立多样化的种子数据集，运用fastText模型从Common Crawl召回相关文档；其次，运用开源大模型如Mixtral提取候选的Q-A对；最终，经过Mixtral-8×7B和Qwen-72B对提取的Q-A对进行精细化处理，以保证数据的质量。该数据集的共同之处在于，它彻底从网络发掘而来，无需人工众包或GPT-4蒸馏，为构建更优质的指令微调数据集供给了新的范式。

上一篇:联想 YOGA Pad Pro 平板业界初次选用超资料天线
下一篇:涨停雷达：房地产+Web30 三湘形象触及涨停

天线

线缆

【五号雷达-数据快讯】WebInstruct - 大规模指令数据集