2014-11-14 , ,

org-modeで数式を書く(HTMLへMathMLでエクスポートする)

このブログ(Org2Blog使用)で数式を書くにはどうすれば良いのだろうか。

もともとorg-modeはLaTeXの表記が使えるのだけど、今の環境にはTeX関連のソフトウェアは入ってないし、画像化して埋め込むというのは面倒くさそうだ。

出力はHTML限定なのだから、MathMLを #+BEGIN_HTML#+END_HTML に書けば良さそうだ。でもMathMLはとても手で書ける代物では無いので、何らかのエディタを使わなければならない。MathMLが出力できる手軽なエディタはあるのだろうか。数式エディタは沢山ありすぎて正直よく分からない。

とりあえず http://www.mathtowebonline.com/ でLaTeXからの変換が出来るようだ。

例えば $a^2=b$ とすると、次のMathMLが得られる。

#+BEGIN_HTML
<math xmlns="http://www.w3.org/1998/Math/MathML">
<mrow>
        <msup>
                <mi>a</mi>
                <mn>2</mn>
        </msup>
        <mo>=</mo>
        <mi>b</mi>
</mrow>
</math>
#+END_HTML

これを実際に書くと↓こんな感じ?(要MathML対応ブラウザ)

a2=b

エクスポートするときにこの変換を自動的にしてくれれば良いのに。調べてみるとorg-modeはLaTeXで書かれた部分をhtmlへエクスポートする際、Mathjaxというものを使うらしい。

うはぁ、JavaScriptを使って html内のLaTeX表記 をブラウザ側でMathMLや(ブラウザが対応していなければ)HTML+CSSへ置換していくらしい。実際試しにエクスポートしてみたら、 LaTeXの表記はそのまま本文に出力 され、ヘッダーで http://orgmode.org/mathjax/MathJax.js を読み込むようなコードが出力されていた。FirefoxはMathMLに対応しているので最終的にMathMLで表示されているかと思いきや、spanとimgタグになっていた。どうもorgmode.orgに置いてあるMathJax.jsがversion="1.0.1"と古いせいのようだ。最新の2.4を使うように修正したらちゃんとMathMLへ置換されるようになった。確かにMathMLに対応していないブラウザでも表示させたければ、こういう方法しか無いのかもしれないけど……。

と、ここまで来て気がついたが、Chromeは未だにMathMLに対応していないらしい。

Issue 152430 - chromium - Enabling support for MathML - An open-source project to help move the web forward. - Google Project Hosting

なるほど、Chromeで使えないとなるとJavaScriptで何とかするのも仕方が無い。しかし、html内の$や\を自動的に置換されてしまうと既存の文章の意味が変わってしまう。私は日常的に数式を書くわけでは無いし、普段は$や\をエスケープせずにそのままの意味で使いたい。ブログ全体にLaTeX→MathML変換を適用するのは得策では無いだろう。

MathjaxにはMathMLに対応していないブラウザー向けにMathMLをHTML+CSSに置換する機能があり、LaTeXからの変換はしないで、それだけをすることも出来るようだ。ここはやはり エクスポート時点でMathMLへ変換 し、Chrome等が対応するまでMathjaxをブログのヘッダーに埋め込んでおき、将来ほとんどのブラウザーが対応したらMathjaxだけ取り外す、ということができると一番良いのではないか。

というわけで、エクスポート時に何とかorgのLaTeX部分をMathMLへ変換したい。

org-modeに既にMathML関連の関数が無いかと探してみると、 org-format-latex-mathml というものが見つかった。それに関連して二つのカスタマイズ可能な変数 org-latex-to-mathml-convert-command と org-latex-to-mathml-jar-file も見つかった。どうもこれはOpenDocumentエクスポートで使用する関数らしい。

MathToWeb というJavaで作られたプログラムを使用してLaTeX表記をMathMLへ変換するようだ。これは使える。

OpenDocumentエクスポートの時は #+OPTIONS: tex:mathml と書けばMathMLでエクスポートされる。これをHTMLエクスポートの時でも使えるようにしたい。

ox-html.elとorg.elを詳しく見た結果、次のように変更することで実現できることが分かった。

まず、ox-html.el内のorg-html-latex-environmentとorg-html-latex-fragmentはlatexで書かれた部分をhtmlへ変換する関数なので、これを修正する。(変更箇所はコメント;;BEGINと;;ENDで挟んである)

(defun org-html-latex-environment (latex-environment contents info)
  "Transcode a LATEX-ENVIRONMENT element from Org to HTML.
CONTENTS is nil.  INFO is a plist holding contextual information."
  (let ((processing-type (plist-get info :with-latex))
        (latex-frag (org-remove-indentation
                     (org-element-property :value latex-environment)))
        (attributes (org-export-read-attribute :attr_html latex-environment)))
    (case processing-type
      ((t mathjax)
       (org-html-format-latex latex-frag 'mathjax info))
;;BEGIN ADD
      ((mathml)
       (org-html-format-latex latex-frag 'mathml info))
;;END ADD
      ((dvipng imagemagick)
       (let ((formula-link
              (org-html-format-latex latex-frag processing-type info)))
         (when (and formula-link (string-match "file:\\([^]]*\\)" formula-link))
           ;; Do not provide a caption or a name to be consistent with
           ;; `mathjax' handling.
           (org-html--wrap-image
            (org-html--format-image
             (match-string 1 formula-link) attributes info) info))))
      (t latex-frag))))

(defun org-html-latex-fragment (latex-fragment contents info)
  "Transcode a LATEX-FRAGMENT object from Org to HTML.
CONTENTS is nil.  INFO is a plist holding contextual information."
  (let ((latex-frag (org-element-property :value latex-fragment))
        (processing-type (plist-get info :with-latex)))
    (case processing-type
      ((t mathjax)
       (org-html-format-latex latex-frag 'mathjax info))
;;BEGIN ADD
      ((mathml)
       (org-html-format-latex latex-frag 'mathml info))
;;END ADD
      ((dvipng imagemagick)
       (let ((formula-link
              (org-html-format-latex latex-frag processing-type info)))
         (when (and formula-link (string-match "file:\\([^]]*\\)" formula-link))
           (org-html--format-image (match-string 1 formula-link) nil info))))
      (t latex-frag))))

processing-typeがmathmlのとき、mathjaxと同じようにorg-html-format-latexを呼び出すようにした。ただし、引数のprocessing-typeは'mathmlとする。

それで呼ばれるorg-html-format-latex関数(ox-html.el内)は変更無し。ただし、この関数はorg-format-latex(org.el内)を呼び出す。

呼ばれるorg-format-latex関数(org.el内)も変更無し。ただし、この関数はorg-format-latex-as-mathml(org.el内)を呼び出す。

呼ばれるorg-format-latex-as-mathml関数(org.el内)はorg-create-math-formula関数(org.el内)を呼び出してLaTeX表記をMathMLへ変換する。そしてOpenDocument用にMathMLファイルへのリンク文字列([[file:hoge-formula-0780fe71dd8921d4e3ff293d9e68b588e526cd9c.mathml]] みたいなの)を生成する。これをリンクでは無く、変換後のMathMLの内容になるように修正する。

ただし、キャッシュを使うかどうかで迷う。元の実装は数式のSHA1ハッシュ値をファイル名にすることで、同じ数式は1回しか変換しないようになっている。この仕組みを流用すれば、同様に同じ数式を何回も変換することを避けることが出来る。その場合は、すでにキャッシュファイルを作るところまでは出来ているので、リンク文字列の代わりにキャッシュファイルの内容を読み込んで文字列にし、それを結果とすれば良い。

(defun org-format-latex-as-mathml (latex-frag latex-frag-type
                                              prefix &optional dir)
  "Use `org-create-math-formula' but check local cache first."
  (let* ((absprefix (expand-file-name prefix dir))
         (print-length nil) (print-level nil)
         (formula-id (concat
                      "formula-"
                      (sha1
                       (prin1-to-string
                        (list latex-frag
                              org-latex-to-mathml-convert-command)))))
         (formula-cache (format "%s-%s.mathml" absprefix formula-id))
         (formula-cache-dir (file-name-directory formula-cache)))

    (unless (file-directory-p formula-cache-dir)
      (make-directory formula-cache-dir t))

    (unless (file-exists-p formula-cache)
      (org-create-math-formula latex-frag formula-cache))

    (if (file-exists-p formula-cache)
        ;; Successful conversion.  Return the link to MathML file.
        (org-add-props
;;BEGIN DEL
;;          (format  "[[file:%s]]" (file-relative-name formula-cache dir))
;;END DEL
;;BEGIN ADD
            (with-temp-buffer (insert-file-contents formula-cache) (buffer-string))
;;END ADD

            (list 'org-latex-src (replace-regexp-in-string "\"" "" latex-frag)
                  'org-latex-src-embed-type (if latex-frag-type
                                                'paragraph 'character)))
      ;; Failed conversion.  Return the LaTeX fragment verbatim
      latex-frag)))

もし余計なファイルを生成するのが煩わしい場合は、毎回org-create-math-formulaを呼び出せば良い。一つの記事に数式がそれほど多くないのであればこれでも良いと思う(全体的に関数を差し替え)。

(defun org-format-latex-as-mathml (latex-frag latex-frag-type
                                              prefix &optional dir)
  "Use `org-create-math-formula' but check local cache first."
  (let* ((print-length nil) (print-level nil) ;;必要?
         (mathml (org-create-math-formula latex-frag)))

    ;; Successful conversion.  Return the MathML.
    (if mathml
        (org-add-props
            mathml

            (list 'org-latex-src (replace-regexp-in-string "\"" "" latex-frag)
                  'org-latex-src-embed-type (if latex-frag-type
                                                'paragraph 'character)))
      ;; Failed conversion.  Return the LaTeX fragment verbatim
      latex-frag)))

最後にorg-create-math-formula(org.el内)関数。余計なxmlヘッダーを付けるコードが入っているので修正する。

(defun org-create-math-formula (latex-frag &optional mathml-file)
  "Convert LATEX-FRAG to MathML and store it in MATHML-FILE.
Use `org-latex-to-mathml-convert-command'.  If the conversion is
sucessful, return the portion between \"<math...> </math>\"
elements otherwise return nil.  When MATHML-FILE is specified,
write the results in to that file.  When invoked as an
interactive command, prompt for LATEX-FRAG, with initial value
set to the current active region and echo the results for user
inspection."
  (interactive (list (let ((frag (when (org-region-active-p)
                                   (buffer-substring-no-properties
                                    (region-beginning) (region-end)))))
                       (read-string "LaTeX Fragment: " frag nil frag))))
  (unless latex-frag (error "Invalid LaTeX fragment"))
  (let* ((tmp-in-file (file-relative-name
                       (make-temp-name (expand-file-name "ltxmathml-in"))))
         (ignore (write-region latex-frag nil tmp-in-file))
         (tmp-out-file (file-relative-name
                        (make-temp-name (expand-file-name  "ltxmathml-out"))))
         (cmd (format-spec
               org-latex-to-mathml-convert-command
               `((?j . ,(shell-quote-argument
                         (expand-file-name org-latex-to-mathml-jar-file)))
                 (?I . ,(shell-quote-argument tmp-in-file))
                 (?o . ,(shell-quote-argument tmp-out-file)))))
         mathml shell-command-output)
    (when (org-called-interactively-p 'any)
      (unless (org-format-latex-mathml-available-p)
        (user-error "LaTeX to MathML converter not configured")))
    (message "Running %s" cmd)
    (setq shell-command-output (shell-command-to-string cmd))
    (setq mathml
          (when (file-readable-p tmp-out-file)
            (with-current-buffer (find-file-noselect tmp-out-file t)
              (goto-char (point-min))
              (when (re-search-forward
                     (concat
                      (regexp-quote
                       "<math xmlns=\"http://www.w3.org/1998/Math/MathML\">")
                      "\\(.\\|\n\\)*"
                      (regexp-quote "</math>")) nil t)
                (prog1 (match-string 0) (kill-buffer))))))
    (cond
     (mathml
;;BEGIN DEL
;;      (setq mathml
;;          (concat "<?xml version=\"1.0\" encoding=\"UTF-8\"?>\n" mathml))
;;END DEL
      (when mathml-file
        (write-region mathml nil mathml-file))
      (when (org-called-interactively-p 'any)
        (message mathml)))
     ((message "LaTeX to MathML conversion failed")
      (message shell-command-output)))
    (delete-file tmp-in-file)
    (when (file-exists-p tmp-out-file)
      (delete-file tmp-out-file))
    mathml))

というわけで、

  • 以上のように関数を修正(修正するとOpenDocumentエクスポートが壊れるので注意。私はOpenDocumentでエクスポートしないので気にしていない)
  • mathtoweb.jarをダウンロードして適当なところに置く
  • 変数をカスタマイズ
    • org-latex-to-mathml-convert-command を "java -jar %j -unicode -force -df %o %I"
    • org-latex-to-mathml-jar-file を "~/bin/mathtoweb.jar"
  • 数式を使いたい記事を書くorgファイルの先頭ある #+OPTIONS:tex:mathml を書き加える

これで式が書けるようになる。

T = [ cos θ - sin θ 0 sin θ cos θ 0 0 0 1 ]

\begin{displaymath}
T = \left[
\begin{array}{rrr}
\cos \theta & -\sin \theta & 0\\
\sin \theta & \cos \theta & 0\\
0 & 0 & 1
\end{array}
\right]
\end{displaymath}

原理的に式番号等の連番は振れないのが残念。

後はChromeでも表示できるように、Blogのヘッダーに次のhtmlを入れる……んだけど、本当に全体に適用しちゃっていいのかな。

<script type="text/javascript"
  src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=MML_HTMLorMML">
</script>

後でもう少し調査する。

Org2Blogで使う上で少し修正。

  • org2blog/wp-use-wp-latexをnilにする。tだとWP LaTeX用の変換が使われてしまうので。
  • 変換後のMathMLから改行を取り除く。WordPress側で<br>が挿入されてしまうので。org-format-latex-as-mathmlを修正する。
(defun org-format-latex-as-mathml (latex-frag latex-frag-type
                                              prefix &optional dir)
  "Use `org-create-math-formula' but check local cache first."
  (let* ((print-length nil) (print-level nil) ;;必要?
         (mathml (org-create-math-formula latex-frag)))

    ;; Successful conversion.  Return the MathML.
    (if mathml
        (org-add-props
            (replace-regexp-in-string "[\n\r]" " " mathml) ;; 改行を削除する。WordPressが<br>を挿入しやがるので

            (list 'org-latex-src (replace-regexp-in-string "\"" "" latex-frag)
                  'org-latex-src-embed-type (if latex-frag-type
                                                'paragraph 'character)))
      ;; Failed conversion.  Return the LaTeX fragment verbatim
      latex-frag)))

WP LaTeXを使うという手もあったんですが、まぁ、今回はあくまでMathMLでエクスポートしたかったと言うことで。

(追記: 上記の修正をadviceの形でまとめた org-modeで数式を書く(HTMLへMathMLでエクスポートする) )