尾声:Linux 中国开源文章数据集
在 Linux 中国开源社区 停止运营 后,我收到了数不清的关心和支持。对此我深感荣幸和感动。然而,我注意到有一个普遍的误解,那就是大家将 Linux 中国的成功完全归功于我,这并不准确。因此,我想借助这篇对 Linux 中国文章数据集的文章,正式澄清这一点,并向在 Linux 中国成长历程中为之做出贡献的每一位贡献者表达我诚挚的敬意。
功由众筑
首先,我要对 Bestony(白宦成)表示感谢。Bestony 早在 LCTT 成立时就是一位贡献者,但他对 Linux 中国的贡献并不仅限于 LCTT 的翻译工作。实际上,Bestony 是 Linux 中国背后的商业实体的唯一合伙人,对 Linux 中国的持续运营做出了无法抹去的贡献。这不仅包括对基础设施的维护、软件的开放,还包括主持我们在 2023 年举办的几乎所有场次的 LLUG 活动。
除了 Bestony,还有许多技术专家为 Linux 中国提供了技术支持,包括 Vivz、Michael Zhang 和 lujun9972 等。例如,Vizv 编写的精妙脚本构成了我们的 GitHub CI 系统,Michael Zhang 为我们提供了自由访问的基础设施,而我们一直依赖的选题系统则是由 lujun9972 开发并运行。
其次,我要感谢所有的 LCTT 贡献者,包括我们的主要流程负责人,他们的 GitHub ID 是:
- 历任选题:DeadFire、oska874、lujun9972
- 历任校对:reinoir222、carolinewuyan、PurlingNayuki、jasminepeng、pityonline
还有我们的首席译者 geekpi,他翻译的文章数量占到了我们的总量的四分之一,而排名第二的是我(wxy),我翻译的数量仅是他的一半。
以下是其他的重要贡献者(三星以上):
- 💎:qhwdw、MjSeven、GOLinux
- 🌟🌟🌟🌟🌟:lujun9972、lkxed、ictlyh、FSSlc、alim0x、ucasFL、robsean、HankChow
- 🌟🌟🌟🌟:bestony、zpl1025、GHLandy、runningwater、strugglingyouth、bazz2、rusking、martin2011qi、pinewall、BriFuture、lxbwolf、stevenzdg988、Flowsnow、Chao-zhi、chai001125、Donkey-Hao
- 🌟🌟🌟:oska874、tinyeyeser、Vic020、KayGuoWhu、ZTinoZ、Luoxcat、amwps290、StdioA、toknow-gh、wwy-hust、su-kaiyao、gxlct008、OneNewLife、name1e5s、MikeCoder、wyangsun、JonnieWayy、heguangzhi、unigeorge、cposture、disylee、Yufei-Yan、mr-ping、hwlife、hopefully2333、vim-kakali、LuuMing、firmianay、aREversez、zhousiyu325、jessie-pang、Moelf、Cubik65536、fuowang、SteveArcher、warmfrog、chen-ni、perfiffer、hanszhao80、ypingcn、XiaotingHuang22、dianbanjiu、tomjlw、wyxplus、cycoe、mengxinayan、messon007、jrglinux、CanYellow、wenwensnow、qfzy1233、laingke、cool-summer-021、DavidChenLiang、guevaraya、Morisun029
除此以外还有另外 469 位为 LCTT 做过贡献的译者,由于篇幅有限无法一一列出他们的名字,详细名单请看: https://linux.cn/lctt-list
除 LCTT 译者外,还有很多贡献者参与了我们的其他开源项目,如中文版《代码英雄》、极客漫画、LFS 中文以及中文手册页(man)。再者,除了翻译,我们的 QQ 群、微信群管理,以及 LLUG 线下活动的组织也都有着大量的贡献者。
果归众享
之前,我们承诺会向社区开放 Linux 中国的文章数据。借助 Bestony 春节期间的努力,我们终于完成了这一工作。
归档站
当前 Linux 中国官方网站是基于 Discuz 开发的,文章内容以 HTML 格式存储。我们考虑到了标准化的重要性,所以已经将原创文章转换为 Markdown 格式。你可以根据自己的需要对这些信息进行处理,例如创建归档站或制作电子书。
当然,我们也官方提供了一个静态归档站:
- 归档站: https://archive.linux.cn/ ,虽然目前功能尚简单,但欢迎大家上传功能补丁
- 归档站源码: https://github.com/Linux-CN/archive
我们欣喜地发现,已有人利用这些数据创建了自己的归档站:
- @modiqi 麟悦(https://linuxjoy.com/ ),我个人觉得非常美观~
如果你也基于这些数据创建了自己的归档站,欢迎大家 分享 给大家访问。
电子书
我们原先希望将所有文章汇集成一本完整的电子书,但后来发现这个目标并不现实。
由于我们的原创文章数量超过万篇,仅图片内容压缩过后就超过了 2GB。因此,你可以利用我们提供的原始数据,筛选自己需要的文章制作电子书。我们也欢迎你将成品 分享 给大家。
原始数据
目前我们为大家提供了两种不同的数据:
- 标准的 Markdown 格式的数据: https://github.com/Linux-CN/archive/releases/tag/release
- Huggingface 数据集: https://huggingface.co/datasets/linux-cn/archive
对于 GitHub 下载不便的朋友,我们也提供了百度网盘的下载方式:https://pan.baidu.com/s/1i7DTuf_umPkkleHFtdmZJA?pwd=lccn 提取码: lccn