昨日、紹介したMacパソコンのエディターJedit Xを本日、いろいろと試してみました。機能豊富の中でも、とりわけ重宝しているのが複数一括置換です。今回は青空文庫のサイトからダウンロードしたテキストで第3、第4水準の漢字が面区点コードで表記されたものをユニコードに変換するのに使ってみました。第3、第4水準の漢字はその文字数が約3,700と数多くあります。この数の分だけ、面区点とユニコードが1対1対応していて、テキスト文に出てきた面区点を検索して、合致したものをユニコードに変換させる必要があります。画像はこの置換を一括処理する操作画面で、第4水準の漢字、2436文字を全検索して、5カ所がヒットして置換されたことを示しています。この検索置換にはおよそ1分ほどかかりましたが、そのパフォーマンスには圧倒されました。この後、InDesignでテキスト文を読み取り、ユニコード入力された文字コードが正しい漢字に表記されたことを確認しました。第3水準の漢字も同じように一括処理するのですが、この検索文字列と置換文字列はマニュアルで本日、作りました。例えば、第4水準の漢字では、まずネット公開しているサイトから全文字のリストをデッドコピーをしてExcelで整理し、できあがった対応表をJeditの検索ページでファイル読み込みすることで、かなり効率良く処理ができました。青空文庫のサイトから本日入手した小説を文庫本にした成果については後日、当ブログにて...
Monthly photo – 2024.11
アーカイブ
カテゴリー
-
最近の投稿
最近のコメント
- myCalendar2025、完成 に 安曇野の風 より
- myCalendar2025、完成 に 三浦の暇人 より
- 長芋の季節? に 安曇野の風 より
- 長芋の季節? に 小宮山務 より
- 底冷えの1日 に 安曇野の風 より
- 底冷えの1日 に 小宮山務 より
- ぶらり図書館へ に 安曇野の風 より
- ぶらり図書館へ に 小宮山務 より
- 岩岳登山、写真集 に 安曇野の風 より
- 岩岳登山、写真集 に 小宮山 務 より
メタ情報