#GitHub #工具
📁 pdf-craft - PDF 文件格式转换工具

▎项目介绍:一个 PDF 文件格式转换工具,支持将 PDF 转换为 Markdown 和 EPUB 格式。
它通过逐页读取 PDF,利用 【DocLayout-YOLO】 和自研算法提取书页中的正文内容,过滤页眉、页脚、脚注、页码等元素。
对于直接扫描生成的中文 PDF 书籍页面,使用 【OnnxOCR】 进行文字识别,并利用 【layoutreader】 确定符合人类习惯的阅读顺序。

▎项目地址:点击打开
 
 
Back to Top