概述
科研工作者在写论文时,经常需要将别的文章的公式识别成 Latex/Word 格式,以便编辑修改。
然而,目前主流的公式识别软件mathpix
、simpletex
等都需要付费才能使用。
它们的识别计算都在云端进行,运营维护成本高,在使用高峰时,往往存在上传完图片,还需要排队等待结果的情况。
尽管现有多模态大模型支持公式的识别解析,但需要额外输入prompt约束回答结果,操作很繁琐。
有没有办法实现直接在本地实现公式识别,不用联网,不用输入prompt的办法呢?
正巧在上文拆解 MinerU 结构时,意外发现其对公式的解析非常准确。
于是花了两天时间,做了个可直接下载使用的公式识别软件FreeTex。
FreeTex官网:https://xdxsb.top/FreeTex
开源地址:https://github.com/zstar1003/FreeTex
演示视频:https://www.bilibili.com/video/BV1zPV2zVEMG
主要特点
作为纯本地运行的软件,FreeTex主要有以下特点:
无需联网免排队
采用本地部署的模型,无需联网调用,数据隐私得到充分保障自适应显卡加速
自动调用独立显卡进行推理,秒出识别结果多类型图像识别
支持手写、印刷、扫描等多种类型的图像识别傻瓜操作超简单
支持上传图像、截图、粘贴三种操作模式,并支持快捷键,提升效率结果导出多格式
识别结果支持直接一键复制成word或latex格式,无需额外操作软件多平台支持
使用python构建,支持Windows、Linux、MacOS等不同平台运行
软件操作步骤
1. 下载软件
前往官网下载软件,下载完运行FreeTex_setup_v0.1.0.exe
进行安装:
2. 等待加载模型
打开软件,需要等待几秒中等模型加载进内存/显存。
软件会自动判断使用CPU/GPU,优先使用GPU进行加速,加载完成后,会在左上角显示使用的具体设备。
3. 图片导入方式
软件支持三种图片导入方式。
1. 上传图片
点击上传图片
按钮,可以从弹出的对话框中,选择具体的公式图片。
2. 截图
点击截图
按钮,软件会自动进入截图模式,可以选择需要截取的公式。
3. 剪切板上传
可以通过其它截图软件比如Snipaste
,直接截图,然后在软件中用快捷键Ctrl+V
,直接将剪切板的图像复制进去识别。
三种方式的默认快捷键如下表所示,可通过软件安装路径下的config.json
文件进行修改。
Ctrl+Alt+Q | |
Ctrl+U | |
Ctrl+V |
导入图片后,软件会自动进行公式识别:
4. 公式导出
软件支持两种公式导出方式:Latex 和 Word,点击对应的按钮,然后粘贴即可。
如需对公式进行编辑,可借助在线的公式编辑网站latexlive,导出latex,往编辑器内粘贴:
网站地址:https://www.latexlive.com
总结
FreeTex 主要解决了公式识别需要付费的问题,作为本地计算软件,无需联网,没有服务器运维成本,并有效保护了数据隐私性。