賢くなりたいトイプードルの日記

データサイエンス系の話をメインにしていきます

WordPressからはてなブログに移植する時の不要文字列の削除

WordPressからはてなブログに移植する方法はこちらの記事に書いてあって、そのままやったらできた。

手順は、

  1. WordPressの管理画面を開く
  2. 「ツール」→「エクスポート」→「投稿」にチェック→「ステータス」を「公開済み」に変更→「エクスポートファイルをダウンロード」をクリック
  3. はてなブログのブログ管理画面を開く
  4. 「インポート」→「ブログデータをアップロード」下で、「wordpress形式」を選択→2でダウンロードしたファイルを選択→「文字コード選択へ進む」
  5. バグが起こってない文字コードを選ぶ
  6. 移植したい画像を選択

これでかなり簡単でスムーズに移植できた。

でも移植された記事を見てみると、

<!-- wp:paragraph -->

とか、不要なclassが挿入されていた。プレビューでは表示されないので問題ないのかもしれないが、SEOとかに関係してくるかもしれない。

よく見られていた記事とかだけでも、この不要文字列を削除しておきたい。

Linuxで削除するコマンドを作ったので、自分用にノートしておく。

以下のようにすれば、上記のような不要な部分がなくなる。

test.mdがコピペしたもので、test-new.mdが不要な部分を削除したもの。

cat ./test.md | sed -e '/wp\:/d' -e 's/ class="[^"]*"//g' > ./test-new.md

おしまい