应用介绍
GraphGen 是一个开源的知识驱动合成数据生成框架,旨在提升大语言模型(LLMs)的监督微调效果。它通过 知识图谱 指导数据生成,结合 OpenAI API 等模型接口,生成高质量、结构化的训练数据,解决传统合成数据存在的 事实错误、覆盖不足、结构单一等问题。
🌟核心特性与功能:
📚 知识图谱驱动:利用知识图谱指导数据生成,提升准确性与覆盖率
📝 合成数据生成:自动生成高质量的训练数据,减少人工标注成本
🔑 兼容 OpenAI API:可调用 GPT 模型进行数据生成与优化
⚡ 提升模型微调效果:增强监督微调(SFT)的表现,改善长尾知识覆盖
🧩 模块化设计:支持与现有 LLM 训练管线集成
🚀 开源可扩展:MIT 许可,开发者可自由修改与扩展
🌐 研究与应用结合:既适合学术研究,也能应用于企业级 AI 模型训练

