2026-04-06 21:55
title: "MarkItDown — MS 파일→마크다운 변환기" date: 2026-03-22 source: https://x.com/just_kyunjung/status/2035700212916687181 url: https://github.com/microsoft/markitdown category: 도구 tags: - microsoft - markitdown - llm-tools - file-conversion - python status: 도입완료
MarkItDown — MS 파일→마크다운 변환기
@just_kyunjung: "MS에서 파일 포맷을 마크다운으로 만들어주는 툴 공개. 워드, 엑셀, PPT 등 10개 이상 포맷을 전환."
개요
- GitHub: https://github.com/microsoft/markitdown
- Stars: 91,600+ ⭐
- 버전: v0.1.5 (2026.02)
- 라이선스: MIT
- 목적: 다양한 파일을 LLM 입력에 최적화된 Markdown으로 변환
지원 포맷
PDF, Word(DOCX), Excel(XLSX), PowerPoint(PPTX), 이미지(EXIF/OCR), 오디오(메타/STT), HTML, CSV, JSON, XML, ZIP, YouTube URL, EPUB
설치
pip install 'markitdown[all]'
사용법
# CLI
markitdown file.pdf -o document.md
cat file.pdf | markitdown
# Python
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)
주요 특징
- LLM 최적화: 사람이 보기 좋은 변환이 아닌, 구조 보존 중심
- 플러그인 아키텍처:
--use-plugins로 확장 가능 - 스트림 기반: 임시 파일 없이 직접 변환
- MCP 통합: Model Context Protocol 서버 내장
- Azure 연동: Document Intelligence 지원 (선택)
- Vision: LLM 기반 이미지 설명/OCR
OpenClaw 도입 현황
scripts/shared/markitdown_converter.py로 래퍼 생성 완료.
from shared.markitdown_converter import convert_file, convert_html, convert_url
convert_file("report.pdf") # PDF/Word/Excel/PPT → MD
convert_html("<table>...</table>") # HTML → MD
convert_url("https://...") # URL → MD
- Python 3.13 필요 (
/opt/homebrew/bin/python3.13) - PDF 실패 시 기존 pdfminer 폴백