[universal] download images

2025-01-24 22:15:03 +03:00 · 2015-10-21 05:02:24 +02:00 · 2015-10-21 05:02:24 +02:00 · 2c7aa3b161
commit 2c7aa3b161
parent 5916c96a6e
1 changed files with 16 additions and 4 deletions
--- a/src/you_get/extractors/universal.py
+++ b/src/you_get/extractors/universal.py
@ -27,14 +27,25 @@ def universal_download(url, output_dir='.', merge=True, info_only=False, **kwarg
            page_title = unescape_html(page_title)
        # most common media file extensions on the Internet
-        media_exts = ['flv', 'mp3', 'mp4', 'webm']
+        media_exts = ['\.flv', '\.mp3', '\.mp4', '\.webm',
                      '[-_]1\d\d\d\.jpg', '[-_][6-9]\d\d\.jpg', # tumblr
                      '[-_]1\d\d\dx[6-9]\d\d\.jpg',
                      's1600/[\w%]+\.jpg', # blogger
                      'img[6-9]\d\d/[\w%]+\.jpg' # oricon?
        ]
        urls = []
        for i in media_exts:
-            urls += re.findall(r'(https?://[^;"\'\\]+\.' + i + r'[^;"\'\\]*)', page)
+            urls += re.findall(r'(https?://[^;"\'\\]+' + i + r'[^;"\'\\]*)', page)
-            q_urls = re.findall(r'(https?%3A%2F%2F[^;&]+\.' + i + r'[^;&]*)', page)
+            p_urls = re.findall(r'(https?%3A%2F%2F[^;&]+' + i + r'[^;&]*)', page)
-            urls += [parse.unquote(url) for url in q_urls]
+            urls += [parse.unquote(url) for url in p_urls]
            q_urls = re.findall(r'(https?:\\\\/\\\\/[^;"\']+' + i + r'[^;"\']*)', page)
            urls += [url.replace('\\\\/', '/') for url in q_urls]
        # a link href to an image is often an interesting one
        urls += re.findall(r'href="(https?://[^"]+\.jpg)"', page)
        # have some candy!
        candies = []
@ -51,6 +62,7 @@ def universal_download(url, output_dir='.', merge=True, info_only=False, **kwarg
        for candy in candies:
            try:
                mime, ext, size = url_info(candy['url'], faker=True)
                if not size: size = float('Int')
            except:
                continue
            else: