RIMS講究録のPDFを全部落として命名するスレ part1
■ このスレッドは過去ログ倉庫に格納されています
数理解析研究所講究録
http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/2020.html
ここから研究者の発表PDFが無料かつ一般向けにダウンロード可能
でも、研究分野でテーマ分けされているわけでも無く、どの回もリンク先を1つ1つ手作業で落とすしか無いのが現状で超不便。
更に、落としたファイルは「【開催回】-【発表の順番】.pdf」というファイル名なだけなので、落とした後も一々命名しなきゃ行けなくて超超不便
そこで、一括で全部ダウンロードして、一括でリネーム処理まで仕様というのがこのスレの趣旨。
現状、俺が出来てること、やったことを述べておこうと思う。 現状、俺が出来てること、やったことを述べておこうと思う。
【1】ダウンロードについて
これは、Irvine(ファイルダウンローダー)を使えば簡単に解決可能。
1 ダウンロードフォルダ作成
2 ツール→リンクのインポート
3 「アドレス」欄に「http://www.kurims.kyoto-u.ac.jp/~kyodo/kokyuroku/」を入力
4 メニューバーの「階層数」を3
これでリンク抽出できるが、インポート数が大量すぎるために待ち時間が長くなる。そこで、
5 「オプション」→「オプション」→無視するURLで
例えば「http:\/\/www\.kurims\.kyoto-u\.ac\.jp\/~kyodo\/kokyuroku\/(contents\/)?((0{3})?\d|(0{2})?\d{2}|0?\d{3}|1[0-7]\d{2}|1800)\.html」
と入力すれば第1800回以降のみが解析対象になって少しPCの負担軽減
6 リンクのインポートを開始(再生マークのボタン)
7 インポート完了後は、オプションから拡張子「pdf」を選んでおいて、「編集」から「指定拡張子を選択」を選択
これで、ダウンロードする全リンクを選択完了。後は落とすだけ。
このあとのファイル命名がクソ面倒 【2】ファイル命名&ファイル振り分けについて
作業が繁雑になるのでJavaでプログラムを書きました。
今のところ、第1801回〜第2148回までは動作確認出来ました。
こんな感じで命名してます
https://i.imgur.com/Vj7FZC5.png
240行ほどのコードになったのですが、一応みたい人のために公開しておきたいんですが、どこにアップロードすべきか探し中 RIMSが無料かつ一般公開してるので、俺がダウンロード&命名したものを纏めてアップロードしても良かったのですが、
そんなことしてもウイルスの不安で信用されないだろうから、命名するためのプログラムを載せておきます。
https://github.com/downloadrims/rims/blob/master/RIMS_sample_code.txt
ここにJavaで書いたサンプルコード載せておきます。
ただし、外部ライブラリを使用しているので、このコードだけでは動きません。
実際に動作させるには、
jsoup ←HTMLをDOMSで取り扱うためのライブラリ
pdfbox ←PDFの取扱をするライブラリ
commons-loggin, fontbox ←フォントの関係上pdfboxを使うならこっちもインポートしておかなければならないライブラリ
が必要になります
2週間はこのスレは見るつもりなので、質問あれば答えます RIMSのPDFを落として命名したいが面倒な一方、他人がアップしたRIMSのPDFなんてダウンロードしたくない人でも、
コードを読んで自分で命名をやるって人が居たら参考になるかと思って公開してみたんだが、
RIMS読むレベルの人にこんな事しなくても自分でコード書いてるか? 訂正
jsoup ←HTMLをDOMで取り扱うためのライブラリ あと、>>5のサンプルコードは一応1802~2148回に対しては動作確認は出来ましたが、それでも参照ライブラリが起こす警告は多数起きてます。
これはPDF参照時のフォントが原因なんでしょうけど、ファイル命名自体は取りあえず出来てるのでスルーしてます。 さっきRIMSの第1回から第1800回までのPDF総数をみたら25000越えてたので、手作業ではほぼ無理ですね
もっと効率的で綺麗なコードがあるなら教えて欲しいです。
ちなみに、このRIMSのページのHTMLはHTMLのマナー(?)を全然分かってない無知な職員が作ったっぽいので解析するのがかなりややこしかった。
それと、規則性が崩れてる回がチラホラあったので、そういう所もコード側でカバーしなきゃ行けなくなってかなりしんどかった 今、0〜499回の分についてプログラム作ってますけど、HTMLを書いてる人が余りにも無能すぎて、クソやりにくい。
HTMLのコードの書き方が初めて1ヶ月ぐらいのレベルで、情報の論理構造が何もなってないし、
文法ミスや誤植も多数だし、書き方に一般性が無かったりでしょっちゅうエラーに出くわして、その度にコード書き直しばっかり。
全部落として命名し終わったら、どういう感じで公開すべきか考えてます。
1・そのファイル・フォルダをどこかにアップ
2・命名するためのプログラムコードを公開
3・一覧化したファイル名をテキストファイルにして、それを公開
1は知らない人のファイルをダウンロードが怖いだろうし、2は他人のプログラムコードを解読するのが面倒だろうし、
3なら一覧のファイル名から一挙にファイルに命名するコードを自分で書けば良いだけだから、一番良いのかな >>13
3が安心ですね。
私にはプログラミングの能力がないから、頑張ってくださいとしか言えんが。 0~499回目までの分の命名とフォルダ分けが一段落付きました。
あとは500~1800回目までが残ってます。
相変わらずHTMLが酷いので、この作業が一段落付いても、各種文字列の整形が続きます はい、進捗状況報告です
現時点で、第1~499回の研究集会までについてHTMLの解析を終えました。
https://github.com/downloadrims/rims/blob/master/RIMS_XML_data_2020-03-30%EF%BC%9A21-22-58.xml
ここにフォルダ、ファイル情報についてXMLファイルとして纏めました。1MB、3万行の中身ですが中身は超シンプルです。
このXMLファイルを使えば簡単にファイルに命名できると思います。
このXMLファイルの記述が気に食わなければ、要望があれば、CSV形式でも一応出力できます。
そして、この範囲までのチェックで次の不具合が発見されました:
・HTMLの構造がルールから外れる:41-10,11、
・HTMLの構造が壊れてる:88-2、106-6、339-8、
・PDFのリンクが不存在:361-3,11,16、
・主催者名が空な回:5,6,7,8,10,11,12,17,26,65,198,238,279,
・タイトル名が140文字以上:
[145-11]のタイトルが長すぎる(192)
[195-10]のタイトルが長すぎる(148)
[224-3]のタイトルが長すぎる(170)
[226-5]のタイトルが長すぎる(163)
[230-8]のタイトルが長すぎる(172)
[258-2]のタイトルが長すぎる(150)
[300-5]のタイトルが長すぎる(196)
[312-10]のタイトルが長すぎる(180)
Windowsではファイル名には制限(255文字?)があるので、長すぎるタイトル名は気をつけなければ行けません。
第41回の分については、HTMLの構造が異なっているので上記XML内には書き込まれていません。
対応ファイル、つまり、「0041-II-00.pdf」、「0041-II-01.pdf」については自分で命名する必要あり。
あと、タイトルにTeXコードそのまま書いてるのがあるので、こういうのは個別で修正されるべきかも。 訂正(1~499回について)
・PDFのリンクが不存在:65-0,1,2,3、122-1,2,3,4,5、361-3,11,16、
PDFリンク不存在の回がもうちょっと多かったみたい 1〜1799回までの分析が終わりました
現状ここまで判明しました
・HTMLの構造がルールから外れる:41-10,11、
・HTMLの構造が壊れてる(<,>の類い):88-2、106-6、339-8、1384-22
・主催者名が空な回:5,6,7,8,10,11,12,17,26,198,238,279,888,989,996,1447,
・第1000回はHTMLページそのものが無い
・PDFのリンクが不存在:65-0,1,2,3、122-1,2,3,4,5、361-3,11,16、527-11、675-10,11,12,19、706-1,2、777-3,11、783-12、790-3,6,11,13,15,18,30,32,33,34、798-22、815-3,6,7,11,15、816-7、829-3、842-1,4,7、879-1,2,3,6、905-10、916-2,10,12、929-6、978-16,20、984-16、987-2,3,4,5,7,11,14、994-10、 リンク不存在の続き
1006-03
1006-16
1007-05
1007-06
1023-05
1023-06
1023-08
1045-04
1045-05
1050-08
1050-14
1055-04
1055-08
1101-07
1101-08
1108-11
1108-14
1108-15
1123-06
1156-06
1160-06
1160-07
1160-14
1160-17
1160-18
1160-19
1160-20
1160-22
1160-27
1160-30
1160-32
1161-02
1161-06
1165-02
1165-08
1165-12
1171-07
1171-08
1171-09
1207-09
1207-11
1212-08
1215-03
1215-17
1224-02
1224-04
1224-06
1224-09
1262-10
1263-13
1264-05
1282-09
1319-29
1334-13 1337-20
1380-02
1380-10
1383-08
1391-06
1391-09
1391-18
1399-12
1406-19
1408-12
1428-06
1428-09
1428-13
1434-14
1437-01
1443-07
1461-12
1474-11
1477-18
1488-04
1488-18
1488-21 まだ1799回までのチェックでこれは多すぎ。最新は2148回だから、リンク不存在は下手するとあと100個以上あるかも。
RIMSのホームページ作った職員のデータベース管理、HTML作成技術がクソ低すぎてヤバい 取りあえず更新しておきました
https://github.com/downloadrims/rims
俺が整形したデータが完璧とまでは言えないが、RIMSホームページのデータよりかはまだマシだと思います
俺がやった整形は、全角英数字を半角へ、全角空白を半角へ がメインかな
あとはファイル名に使えない*、:、?等を全角にしたり、HTML上のバグっぽい記号を修正したりとか >>24の整形済みデータにまだ修正する余地があったら教えて下さい 取りあえずここで一旦RIMSの全回のチェック終わりました
https://github.com/downloadrims/rims
発見されたエラーも纏めて載せておきました
他にチェックが抜けてることがあったら教えて下さい あとはRIMSホームページ管理人に連絡とって要望伝えておくぐらいかな? 個人的には、
, ←半角コンマの直後の半角空白
と
「←全角括弧始め
と
」←全角括弧終わり
と
─←変なハイフン記号
がかなり邪魔だと思ったんだが。 >>30
https://github.com/downloadrims/rims/tree/master
ここの「ファイル名を1行でアウトプット.txt」に見やすいように纏めてます(最新版)。>>28をちょっとアプデしました。
まぁまぁ綺麗に整形してるので各自がリネーム&フォルダ振り分けする際に活用できると思いますし、
ただ単に閲覧する用にもまぁまぁ使えるかと。
でもまだファイル名の整形が非の打ち所の無いレベルの完全無欠とは言う自信は無いので、悪い所があれば教えて欲しいです
あと、Windowsではファイル名に使える文字数に制限があるので、各発表者のタイトルは短縮しなければならない。
かなり多数(数百個)のPDFについて、タイトルを短縮せざるを得なくなる。 ちなみに、俺が(Irvineで)RIMSからダウンロードしたPDFファイル数は、
第1回〜第499回で、5790個
第500~第999回で、7896個
第1000回~第1499回で、8811個
第1500回~第1799回で、5291個
第1800回~第2148回で、5669個
2~3階チェックしたから、現状ダウンロードできるPDFファイル数はこれで大丈夫だとは思う。 訂正
Windowsではファイル名を含めたファイルパスに制限があるみたいなので、更に文字数制限がされるようです。
なので、ファイル名はもっと短くしなきゃ行けなくなります タイトルに「*」、「:」が入っていたのを「*」、「:」にしました
ファイル名にこれらの文字は使えないので。 さっき纏めたXMLファイルからファイルへの命名をしたけど、やっぱり上手くいかない
ファイルパスに使える文字数制限が原因なんだろうけど、コピーして作ったファイルがフォルダ上には見えてるけど、一切操作できないダミーみたいなファイルが出来てしまう RIMSの事務にメール送ったのに全然返信が来ない
完全に無視されてるな >>38のリンクがちょっと切れてるっぽいんだが、
https://github.com/downloadrims/rims
ここから、「Springer無料公開407冊分のPDFリンク(Subject Classification順)」を辿れば、リンク集に行けます。
あとは、そのリンク集をコピペして、IrvineなりJDownloaderなりで単純にダウンロード登録すればOK.
でも、ダウンロードしたファイルの名称はかなり雑になってるので、適切なファイル名になるように、また俺の方でちょっとプログラム考えておきます >>38,39
そっちの方の話は↓ここで完結しました。ということで>>38,39は撤回。
https://github.com/downloadrims/Springer
ここで、今回のコロナ騒動で無料公開になったSpringerの専門書を落とす手順を纏めました Javaを理解してライブラリJsoupをクラスパスに追加する知識があるなら、>>40の先にあるサンプルプログラムを使えばいいです。
ソースコードが100行無いので1時間で理解出来るはず。
このプログラムを使えばダウンロードからのフォルダ作成、ファイル命名まで出来ます。
知識が無いなら>>182の先のxmlファイルを開けば、今回無料で落とせる407ファイルの全リンクがあるので、それをJDownloaderなりにリンクを追加すれば良いです。
ただこの場合は、ファイルのフォルダ配分もしてくれないし、ファイルの命名もオリジナルのまま(つまり、あんまり整ってない)です。 https://github.com/downloadrims/rims/tree/master
更新しました。
自動ダウンロードからフォルダ振り分け・ファイル命名を行うプログラムを作りました。 川端康成(?)「密林」
RIMSの長い廊下を抜けると、密林だった。
http://asahi.com/articles/ASK5Z6FQPK5ZPLBJ007.html
(大意)
・本や資料がそこら中うず高く積まれていたのであろう。
・黒板にある ◎転行列 は「回ってる」感がよく出ている。
・猛暑の夏はアロハシャツに限る。 ●青戸六丁目被害者住民一同「色川高志の金属バット集団殴打撲殺を熱望します」
長木親父&長木よしあき(盗聴盗撮犯罪者の色川高志を逮捕に追い込む会&被害者の会会長)住所=東京都葛飾区青戸6−23−20
●龍神連合五代目総長・色川高志(葛飾区青戸6−23−21ハイツニュー青戸103)の挑発
色川高志「糞関東連合文句があったらいつでも俺様を金属バットで殴り殺しに来やがれっ!! 糞関東連合の見立・石元・伊藤リオンの糞野郎どもは
龍神連合五代目総長の俺様がぶちのめしてやるぜっ!! 賞金をやるからいつでもかかって来いっ!! 糞バエ関東連合どもっ!! 待ってるぜっ!!」(挑戦状)
●青戸六丁目被害者住民一同「盗聴盗撮犯罪者の色川高志の逮捕を要請します」
長木親父&長木よしあき(盗聴盗撮犯罪者の色川高志を逮捕に追い込む会&被害者の会会長)住所=東京都葛飾区青戸6−23−20
●盗聴盗撮つきまとい嫌がらせ犯罪者/アナル挿入食糞愛好家で生活保護費不正受給犯罪者の色川高志
色川高志の住所=東京都葛飾区青戸6−23−21ハイツニュー青戸103号室
【通報先】亀有警察署=東京都葛飾区新宿4ー22ー19 рO3ー3607ー0110
盗聴盗撮つきまとい嫌がらせ犯罪者/アナル挿入食糞愛好家で生活保護費不正受給犯罪者である色川高志の盗聴盗撮つきまとい嫌がらせ犯罪者/愛人変態メス豚家畜清水婆婆(青戸6−23−19)の
五十路後半強制脱糞
http://img.erogazou-pinkline.com/img/2169/scatology_anal_injection-2169-027.jpg
アナル挿入食糞愛好家で生活保護費不正受給犯罪者の色川高志によりバスタブで清水婆婆の巨尻の肛門にシャワーのキャップをはずしてずっぽり挿入。
そして、大量浣腸。 勢い良く噴出!腸内洗浄状態です。
http://101.dtiblog.com/b/bodytk9690/file/kan01.jpg
浣腸器と異なりどくどくと直腸内に注入され清水婆婆は激しくあえぎます ■ このスレッドは過去ログ倉庫に格納されています