MDARK
2024 年/ 7 月 ~ 9 月

[科技周报] NodeJS 试验性支持原生 TS;两大基础模型发布;开源时序数据库 LinDB

了解科技资讯、把握行业脉搏。每周快速浏览 Hacker News 精选。本期 Hacker Newsletter 地址:https://mailchi.mp/hackernewsletter/709

了解科技资讯,把握行业脉搏,大家好,我是Koala,欢迎收看科技周报。


LinDB|开源时序数据库 LinDB

https://lindb.io/oss/lindb

LinDB是一款开源的云原生分布式时序数据库,它有几个让人眼前一亮的特点:首先是性能强劲,单服务器就能支持百万级的写入吞吐量,查询性能也相当不错。高可用性方面,它采用了多通道复制协议,可以支持任意数量的节点,使用起来也很简单,无需预定义schema,直接用metric tags和fields就能搞定多维数据模型。Koala认为,和同类项目相比,LinDB最独特的可能是它的跨数据中心数据聚合能力。LinDB专门为多活数据中心架构设计,broker层能高效的处理跨数据中心的聚合查询,在可靠性方面的设计考量,可以让用户更加了解这是一个严肃的项目,而非玩具。


Zerox OCR|文档 OCR 工具

https://github.com/getomni-ai/zerox

Zerox是一款简单易用的文档OCR工具,它的工作原理很直观,把PDF转成图片,用GPT识别内容并转换成markdown格式。虽然听起来很基础,但借助最新的GPT4-mini模型,Zerox在价格和效果上都有一定的竞争力。与其他文档处理服务相比,Zerox在价格、性能、准确性和表格处理质量上都表现不俗,每千页文档的处理成本仅0.4美元,使用起来也很方便,只需几行代码就能完成OCR任务。Koala认为,在大语言模型API升级且降价的竞争之下,对于OCR质量要求相对传统的任务,使用大语言模型来完成的成本也逐渐变得可以接受,对一些内容复杂,传统提取方式无法达到预期质量的场景,使用大语言模型提取的方案值得一试。


NodeJS 试验性支持原生 TS

https://github.com/nodejs/node/pull/53725

NodeJS正在考虑添加对TypeScript的原生支持,这是一个很有意思的发展,在最新合入的一个PR中提出了新的实验性功能experimental strip types,可以让NodeJS直接执行TypeScript文件,它的工作原理是在运行时去掉所有类型信息,把TypeScript代码转换成普通的JavaScript。需要注意的是,该功能只是去掉类型注释,不做类型检查。为了避免引入复杂的Go和Rust工具链,该PR选用了SWC项目提供的wasm编译版本完成对应逻辑,这与Deno的做法十分相似。Koala认为,虽然该功能目前还处于实验阶段,但如果最终被采纳,可能会大大简化TypeScript的使用流程,由此也可以看出TypeScript目前在社区中的强势地位。


交互式 release note 解读 Go 1.23

https://antonz.org/go-1-23

Go 1.23版本发布之后,一位开发者自制了交互式的release note,通过一些代码示例,可以更直观的理解每个功能的具体使用方式,还可以在浏览器中直接运行示例代码查看结果。Go 1.23带来了一系列重要更新,例如迭代器成为了一等公民,通过一系列API增强,让处理序列数据变得更加统一和方便。此外,调试器得到了改进,未使用的timer现在可以被垃圾回收,reset方法的行为也更符合直觉,这解决了之前timer使用中的一些特点。更多改动,大家可以自行查看这篇release note。Koala认为,交互式的release note可以大大提升内容的可读性,未来也许更多编程语言和开源项目会开始考虑这种发布形式。


Stirling-PDF|自部署 PDF 处理工具

https://github.com/Stirling-Tools/Stirling-PDF

Stirling-PDF是一个功能强大的自部署PDF处理工具,得益于完全本地化部署,该工具可以很好的保护隐私和数据安全。功能方面也非常丰富,包括PDF拆分、合并、转换、重组、添加图片、旋转和压缩等多种操作。有OCR等高级需求的用户,也可以通过扩展插件完成集成。Koala认为,在当下大语言模型引领的AI时代中,围绕大量现存PDF文本语料如何被有效使用,也产生了很多工具链,Stirling PDF不仅能适用于AI模型相关的使用需求,也可以满足传统PDF的编辑操作需求,是一个很全能的工具。


两大基础模型发布

https://ai.meta.com/blog/meta-llama-3-1/https://mistral.ai/news/mistral-large-2407/

本周开源大语言模型又迎来了两项重磅发布,Meta发布了Llama3.1,从测试结果上看,很可能是迄今为止功能最强大的开源模型,这个版本的亮点包括扩展的128k上下文长度,对八种语言的支持以及405B参数模型,这个新模型在灵活性和控制力上可以媲美目前最强的封闭源模型。随后Mistral也发布了最新的Mistral Large2模型,继续在成本效益、速度和性能方面推陈出新,这个版本同样拥有128k的上下文窗口,支持多种语言和80多种编程语言。两个新模型在生态方面也都十分繁荣,官方和集成服务商都在自家平台进行集成,或提供可用的API服务,相信也会有大量微调工作基于这些新的基础模型展开。


以上就是本期科技周报的全部内容,谢谢您的收看,如果内容对您有帮助,请一键三连支持我们。

Leave comment