[科技周报] NodeJS 试验性支持原生 TS；两大基础模型发布；开源时序数据库 LinDB

了解科技资讯、把握行业脉搏。每周快速浏览 Hacker News 精选。本期 Hacker Newsletter 地址：https://mailchi.mp/hackernewsletter/709

了解科技资讯，把握行业脉搏，大家好，我是Koala，欢迎收看科技周报。

LinDB｜开源时序数据库 LinDB

LinDB是一款开源的云原生分布式时序数据库，它有几个让人眼前一亮的特点：首先是性能强劲，单服务器就能支持百万级的写入吞吐量，查询性能也相当不错。高可用性方面，它采用了多通道复制协议，可以支持任意数量的节点，使用起来也很简单，无需预定义schema，直接用metric tags和fields就能搞定多维数据模型。Koala认为，和同类项目相比，LinDB最独特的可能是它的跨数据中心数据聚合能力。LinDB专门为多活数据中心架构设计，broker层能高效的处理跨数据中心的聚合查询，在可靠性方面的设计考量，可以让用户更加了解这是一个严肃的项目，而非玩具。

Zerox OCR｜文档 OCR 工具

https://github.com/getomni-ai/zerox

Zerox是一款简单易用的文档OCR工具，它的工作原理很直观，把PDF转成图片，用GPT识别内容并转换成markdown格式。虽然听起来很基础，但借助最新的GPT4-mini模型，Zerox在价格和效果上都有一定的竞争力。与其他文档处理服务相比，Zerox在价格、性能、准确性和表格处理质量上都表现不俗，每千页文档的处理成本仅0.4美元，使用起来也很方便，只需几行代码就能完成OCR任务。Koala认为，在大语言模型API升级且降价的竞争之下，对于OCR质量要求相对传统的任务，使用大语言模型来完成的成本也逐渐变得可以接受，对一些内容复杂，传统提取方式无法达到预期质量的场景，使用大语言模型提取的方案值得一试。

NodeJS 试验性支持原生 TS

https://github.com/nodejs/node/pull/53725

NodeJS正在考虑添加对TypeScript的原生支持，这是一个很有意思的发展，在最新合入的一个PR中提出了新的实验性功能experimental strip types，可以让NodeJS直接执行TypeScript文件，它的工作原理是在运行时去掉所有类型信息，把TypeScript代码转换成普通的JavaScript。需要注意的是，该功能只是去掉类型注释，不做类型检查。为了避免引入复杂的Go和Rust工具链，该PR选用了SWC项目提供的wasm编译版本完成对应逻辑，这与Deno的做法十分相似。Koala认为，虽然该功能目前还处于实验阶段，但如果最终被采纳，可能会大大简化TypeScript的使用流程，由此也可以看出TypeScript目前在社区中的强势地位。

交互式 release note 解读 Go 1.23

https://antonz.org/go-1-23

Go 1.23版本发布之后，一位开发者自制了交互式的release note，通过一些代码示例，可以更直观的理解每个功能的具体使用方式，还可以在浏览器中直接运行示例代码查看结果。Go 1.23带来了一系列重要更新，例如迭代器成为了一等公民，通过一系列API增强，让处理序列数据变得更加统一和方便。此外，调试器得到了改进，未使用的timer现在可以被垃圾回收，reset方法的行为也更符合直觉，这解决了之前timer使用中的一些特点。更多改动，大家可以自行查看这篇release note。Koala认为，交互式的release note可以大大提升内容的可读性，未来也许更多编程语言和开源项目会开始考虑这种发布形式。

Stirling-PDF｜自部署 PDF 处理工具

https://github.com/Stirling-Tools/Stirling-PDF

Stirling-PDF是一个功能强大的自部署PDF处理工具，得益于完全本地化部署，该工具可以很好的保护隐私和数据安全。功能方面也非常丰富，包括PDF拆分、合并、转换、重组、添加图片、旋转和压缩等多种操作。有OCR等高级需求的用户，也可以通过扩展插件完成集成。Koala认为，在当下大语言模型引领的AI时代中，围绕大量现存PDF文本语料如何被有效使用，也产生了很多工具链，Stirling PDF不仅能适用于AI模型相关的使用需求，也可以满足传统PDF的编辑操作需求，是一个很全能的工具。

两大基础模型发布

https://ai.meta.com/blog/meta-llama-3-1/ 和 https://mistral.ai/news/mistral-large-2407/

本周开源大语言模型又迎来了两项重磅发布，Meta发布了Llama3.1，从测试结果上看，很可能是迄今为止功能最强大的开源模型，这个版本的亮点包括扩展的128k上下文长度，对八种语言的支持以及405B参数模型，这个新模型在灵活性和控制力上可以媲美目前最强的封闭源模型。随后Mistral也发布了最新的Mistral Large2模型，继续在成本效益、速度和性能方面推陈出新，这个版本同样拥有128k的上下文窗口，支持多种语言和80多种编程语言。两个新模型在生态方面也都十分繁荣，官方和集成服务商都在自家平台进行集成，或提供可用的API服务，相信也会有大量微调工作基于这些新的基础模型展开。

以上就是本期科技周报的全部内容，谢谢您的收看，如果内容对您有帮助，请一键三连支持我们。