ここから本文です

相当に難しいと思いますが、PythonかC言語で、ネットのソースの一部をコピペする方...

アバター

ID非公開さん

2012/5/2017:42:17

相当に難しいと思いますが、PythonかC言語で、ネットのソースの一部をコピペする方法はあるでしょうか?

インターネットのウェブサイトで見れるソース(ページ上で右クリックし、「ページのソースを表示」で見れるソースのこと)で特定の箇所をPythonかC言語で自動的にメモ帳にコピペする方法はあるでしょうか。

私は現在インターネット上で無料で公開されている辞書の定義を手作業でコピペしていますが、量が多すぎて困っています。定義を調べたい単語とその単語の定義を載せているウェブのURL(及びそのソースのURL)はすべて手元にあります。また、辞書のサイトですので、形式は決まっていて、結果としてコピペする箇所は必ずAAAという文字列ではじまりBBBという文字列で終わります。

要するに私の望むプログラミングは、ある単語の定義の箇所すべてをメモ帳にコピーし、次の単語に移るという作業をただ繰り返してくれるものです。

閲覧数:
488
回答数:
3
お礼:
500枚

違反報告

ベストアンサーに選ばれた回答

chr********さん

2012/5/2020:38:12

この例は、
指定した複数のURLのソースを読み込んで、
ソースの中から「"http」で始まって「"」で終わるURLらしき領域をリストアップして、
そのURLをファイルに保存するプログラムです。
#ファイル名に「/」を使いたくなかったので、「_」に置き換えています。

部品としては一通り揃っていると思うので、適当に書き直して使ってください。
行頭にスペースを入れられなかったので、「_」で埋めています。
半角スペースに置換してください。

import urllib2
import re
pageurllist = ["http://chiebukuro.yahoo.co.jp/", "http://yahoo.co.jp/"]
for pageurl in pageurllist:
____page = urllib2.urlopen(pageurl).read()
____urllist = re.findall('"http[^"]*"',page)
____for url in urllist:
________url = url[1:-1]
________print url
________try: open(url.replace("/","_"),"w").write(urllib2.urlopen(url).read())
________except: pass

この回答は投票によってベストアンサーに選ばれました!

ベストアンサー以外の回答

1〜2件/2件中

並び替え:回答日時の
新しい順
|古い順

たろうさん

2012/5/2018:03:55

ローカルにあるファイルを読み込んで, 決まった形式の部分だけを抜き出す
という処理はできますでしょうか?

それができるのであれば
wgetなどのダウンロードツールで各ページをダウンロードしてしまってから
ダウンロードしたファイルからPythonで抜き出せばよいです

できないのであれば
Python ファイル読み込み
Python 正規表現
といったキーワードで検索してみてください

ii3********さん

編集あり2012/5/2018:04:10

1.指定URLのHTMLを取得。
2.HTML内の文字列を正規表現などを使って抽出。
3.抽出した文字列をテキスト形式で保存。
という流れになると思います。
よくあるプログラムなので、それほど難しい部類ではないと思いますが。
(Pythonなら結構簡単にできそう)

あわせて知りたい

この質問につけられたタグ

みんなで作る知恵袋 悩みや疑問、なんでも気軽にきいちゃおう!

Q&Aをキーワードで検索:

Yahoo! JAPANは、回答に記載された内容の信ぴょう性、正確性を保証しておりません。
お客様自身の責任と判断で、ご利用ください。
本文はここまでです このページの先頭へ

「追加する」ボタンを押してください。

閉じる

※知恵コレクションに追加された質問は選択されたID/ニックネームのMy知恵袋で確認できます。

不適切な投稿でないことを報告しました。

閉じる