手写一个 Git 版本控制系统

自然语言处理中的 Embedding 是什么?

Embedding 直译过来是嵌入,但实际上这个技术的主要作用是将文本进行向量化(给文本提取多维度特征,用于判断文本之间的关系远近)。
《嵌入被低估了》,这篇文章讨论了机器学习(ML)技术中的嵌入技术对技术写作领域可能产生的影响。
文章介绍了如何使用嵌入技术,以及它们是如何工作的。例如,使用 Gemini 服务提供商的 API 来生成嵌入向量的结果。
嵌入技术将文本映射到一个多维空间中,每个维度代表一个特征。通过比较两个嵌入在这个多维空间中的距离,可以确定两个文本在语义上的接近程度。
作者进行了一个实验,通过 Sphinx 扩展为每个文档生成嵌入,并将结果存储在 embeddings.json 文件中。然后,使用线性代数方法找到每个文档的最近邻,即与当前页面相关的推荐页面。
实验表明,嵌入技术可能为我们维护文档的能力带来数量级上的提升。
基于自然语言的数据可视化

data-formulator,微软开源的一个数据可视化AI工具项目:data-formulator,支持用户界面交互和自然语言输入结合的方式,进行数据转换并创建可视化效果。
能处理图片和混乱文本,专业分析师和普通用户都能用。
特点:
- 结合了拖拽操作和自然语言输入,不用写代码;
- 可以自动理解数据关系,智能推荐合适的图表类型,能自动转换和清理数据,可以处理复杂的数据计算;
- 可以调整图表样式,支持迭代式修改,可以基于现有图表继续优化;
- 支持多种图表类型,能处理图片和混乱文本,自动生成数据转换的代码;
专门绘制神经网络的绘图工具

NN-SVG,一个参数化生成神经网络(NN)架构图的工具,能帮助科研人员快速画出学术级别的示意图,支持一键导出SVG格式。
节点层数、数量、颜色、大小等各类属性,都可以自定义设置。支持绘制多种神经网络图,比如:
- 全连接神经网络(FCNN);
- 卷积神经网络(CNN);
- 深度神经网络,参考 AlexNet 论文的风格;
纸质文档数字化存档工具

paperless-ngx,一个基于 Django 的文档管理系统,可将纸质文档转换成可搜索的在线存档。不同于普通的扫描仪将实体书变为难以检索的图片或 PDF 格式,它通过文档扫描器实现电子化,转化为易于检索的格式。
免费在线文本转语音

Azure TTS Web,支持一次最多转换2000字,生成的声音非常真实、自然,有男性、女性的角色可选,情绪可匹配亲切、愉悦、兴奋、抱歉等。
transformer 可视化

订阅
这里会不定期分享我看到的有趣的内容(不一定是最新的,但是有意思),因为大部分都与机器有关,所以先叫它“机器文摘”吧。
Github仓库地址:https://github.com/sbabybird/MachineDigest
喜欢的朋友可以订阅关注:
- 通过微信公众号“从容地狂奔”订阅。

- 通过竹白进行邮件、微信小程序订阅。
