ここから本文です

URL先の外部データの取り込み。 一覧ページに表示されないwebサイトのデータを...

sgt********さん

2016/8/2522:38:11

URL先の外部データの取り込み。

一覧ページに表示されないwebサイトのデータを抽出する方法について。

求人サイトに載っている店名と電話番号をエクセルやGoogleスプレッドシートに抽出したいのですが、なかなかうまくいきません。




求人サイトでは一覧ページでは店名しか表示されず、電話番号はそれぞれのページにリンクしないと閲覧できません。


そのためスプレッドシートで一覧ページをIMPORT関数を使用してリンクの抽出を行うことはできますが、リンクそれぞれにある電話番号の抽出はIMPORTHTML関数で個別に行う必要があります。

VBA、マクロや関数などを使って、効率的に電話番号を取得したいのですが方法はありますか。

あまり詳しくないので、手順を教えていただけますと幸いです。ちなみに抽出したいサイトは https://www.tainew.com/ です。

この質問は、20代の男性に回答をリクエストしました。

閲覧数:
139
回答数:
3
お礼:
250枚

違反報告

ベストアンサーに選ばれた回答

por********さん

2016/8/2701:07:09

>sgtnfcさん
>VBA、マクロや関数などを使って、効率的に電話番号を取得したいのですが方法はありますか。

VBA等使わずに、適した言語で行い最終的にXLSファイルで出力するのが効率的でしょうね。

この回答は投票によってベストアンサーに選ばれました!

ベストアンサー以外の回答

1〜2件/2件中

並び替え:回答日時の
新しい順
|古い順

gas********さん

2016/8/2706:43:51

Googleスプレッドシートでやります。

予めD列は非表示で隠してください。

URLの部分は"https://www.tainew.com/"としてください。

A1に={QUERY(IMPORTXML(URL,"//div[@class='accessShopInfo']"),"select Col3");QUERY(IMPORTXML(URL,"//div[@class='shopTextWrap']"),"select Col1")}

B1に={IMPORTXML(URL,"//div[@class='accessShopInfo']/../a/@href");IMPORTXML(URL,"//div[@class='shopTextWrap']/../a/@href")}

C1から下方向に=IMPORTXML(B1,"/")を最下行までコピペ

E1から下方向に=REGEXEXTRACT(D1,"\d{2,4}-\d{2,4}-\d{4}")を最下行までコピペ

ひとまずこれでアクセス急上昇中と急募の店、両方を取得することができます(分けてもいいですが)

jun********さん

2016/8/2606:15:33

IMPORTHTMLを使って収集しているのであれば、VBAでも同じことですよ。
どちらにせよ、リンク先にアクセスして、データを何らかの形で取得してから抽出することになるのですから、この場合は効率云々は関係ないと思います。

みんなで作る知恵袋 悩みや疑問、なんでも気軽にきいちゃおう!

Q&Aをキーワードで検索:

Yahoo! JAPANは、回答に記載された内容の信ぴょう性、正確性を保証しておりません。
お客様自身の責任と判断で、ご利用ください。
本文はここまでです このページの先頭へ

「追加する」ボタンを押してください。

閉じる

※知恵コレクションに追加された質問は選択されたID/ニックネームのMy知恵袋で確認できます。

不適切な投稿でないことを報告しました。

閉じる