update some scrapers

2008-03-16 12:16:07 +00:00 · 2008-03-16 12:16:07 +00:00 · 6bedcaa9d6
commit 6bedcaa9d6
parent 4d5b87a890
5 changed files with 133 additions and 8 deletions
--- a/scrapeit/btutils.py
+++ b/scrapeit/btutils.py
@ -1,6 +1,7 @@
 # -*- Mode: Python; -*-
 # -*- coding: utf-8 -*-
 # vi:si:et:sw=2:sts=2:ts=2
+import re

 from utils import stripTags

@ -27,4 +28,40 @@ def torrentsWeLike(link):
  for word in ('dvdrip', 'dvdscr', 'dvd screener'):
    if word in text:
      return True
-  return False
+  return False
+
+def movieType(movie):
+  if 'cam' in movie['title'].lower():
+    return 'cam'
+  if 'vcd' in movie['title'].lower():
+    return 'vcd'
+  for key in ('telesync', 'telecine', '.ts', '.tc', ' tc ', ' ts', 'ts-screener'):
+    if key in movie['title'].lower():
+      return 'telecine'
+  for key in ('dvdrip', 'dvdscrs'):
+    if key in movie['title'].lower():
+      return 'dvdrip'
+  if 'screener' in movie['title'].lower():
+    return 'screener'
+  if 'xvid' in movie['title'].lower():
+    return 'Xvid'
+  if '1080p' in movie['title'].lower():
+    return '1080p'
+  if '720p' in movie['title'].lower():
+    return '720p'
+  if 'dvdr' in movie['title'].lower():
+    return 'DVDR'
+  return ''
+
+def filterMovies(movies):
+  m2 = []
+  for movie in movies:
+    imdb_id = re.compile('title/tt(\d{7})').findall(movie['txt'])
+    if imdb_id:
+      movie['imdb'] = imdb_id[0]
+    else:
+      movie['imdb'] = ''
+      movie['source_type'] = movieType(movie)
+    m2.append(movie)
+  return m2
+
--- a/scrapeit/imdb.py
+++ b/scrapeit/imdb.py
@ -185,7 +185,7 @@ class IMDb:
      title = stripTags(html_title)
      title = re.sub('\(\d\d\d\d\)', '', title)
      title = re.sub('\(\d\d\d\d/I*\)', '', title)
-      for t in ('TV-Series', '(mini)', '(VG)', '(V)', '(TV)'):
+      for t in ('TV series', 'TV-Series', '(mini)', '(VG)', '(V)', '(TV)'):
        title = title.replace(t, '')
    if title.find(u'\xa0') > -1:
      title = title[:title.find(u'\xa0')]
@ -264,6 +264,10 @@ class IMDb:
    IMDbDict['episode_of'] = IMDbDict.pop('tv_series', '')

    IMDbDict['episodes'] = self.parseEpisodes()
+    if IMDbDict['episodes']:
+      IMDbDict['tvshow'] = True
+    else:
+      IMDbDict['tvshow'] = False
    IMDbDict['credits'] = self.parseCredits()
    IMDbDict['plot'] = self.parsePlot()
    IMDbDict['keywords'] = self.parseKeywords()
@ -528,10 +532,10 @@ def guess(title, director=''):
    search = 'site:imdb.com %s "%s"' % (director, title)
  else:
    search = 'site:imdb.com "%s"' % title
-  for (name, url, desc) in google(search, 1):
+  for (name, url, desc) in google(search, 2):
    if url.startswith('http://www.imdb.com/title/tt'):
      return url[28:35]
-      
+
  try:
    req = urllib2.Request(imdb_url, None, utils.DEFAULT_HEADERS)
    u = urllib2.urlopen(req)
--- a/scrapeit/mininova.py
+++ b/scrapeit/mininova.py
@ -6,9 +6,10 @@ import socket
 from urllib import quote

 from BeautifulSoup import BeautifulSoup
+import feedparser

 from utils  import read_url, read_url_utf8
-from btutils import torrentsWeLike
+from btutils import torrentsWeLike, filterMovies

 socket.setdefaulttimeout(10.0)

@ -47,3 +48,47 @@ def searchByImdb(imdb):
        torrent_url = "http://www.mininova.org%s" % torrent.get('href').replace('/tor', '/get')
        torrents.append(torrent_url)
  return torrents
+
+def getId(s):
+  s = s.split('/')
+  if len(s) == 1:
+    return s[0]
+  else:
+    return s[-1]
+
+def getInfo(mid):
+  mid = getId(mid)
+  comment_link = "http://www.mininova.org/tor/%s" % mid
+  torrent_link = "http://www.mininova.org/get/%s" % mid
+  details_link = "http://www.mininova.org/det/%s" % mid
+  txt = read_url(comment_link) + '\n' + read_url(details_link)
+  txt = txt.decode('utf-8', 'replace')
+  title = re.compile('<title>(.*?):.*?</title>').findall(txt)[0]
+  if "This torrent does not exist..." in txt:
+    print "This torrent does not exist...", mid
+    return None
+  movie = dict(
+    title=title,
+    txt=txt,
+    comment_link=comment_link,
+    torrent_link=torrent_link,
+  )
+  return filterMovies([movie,])[0]
+
+def newMovies(preFilter):
+  url = "http://www.mininova.org/rss.xml?cat=4"
+  page = read_url(url)
+  fd = feedparser.parse(page)
+  movies = []
+  for entry in fd.entries:
+    if not preFilter or preFilter(entry):
+      movie = dict(
+        title=entry.title,
+        txt=entry.summary,
+        comment_link=entry.link,
+        torrent_link=entry.link.replace('/tor/','/get/')
+      )
+      movies.append(movie)
+  movies = filterMovies(movies)
+  return movies
+
--- a/scrapeit/rottentomatoes.py
+++ b/scrapeit/rottentomatoes.py
@ -20,7 +20,7 @@ def getRottenTomatoes(rating = 70):
  offset = 0
  titles = ['1']
  while titles:
-    url = "http://www.rottentomatoes.com/movies/browser.php?movietype=1&genre=&tomatometer=&avgrating=%s&numreviews=10&mpaa=&x=40&y=5&start_index=%s" % (rating, offset)
+    url = "http://www.rottentomatoes.com/browser.php?movietype=1&genre=&tomatometer=&avgrating=%s&numreviews=10&mpaa=&x=56&y=10&start_index=%d" % (rating, offset)
    page = read_url(url)
    soup = BeautifulSoup(page)
    titles = [link.contents[0] for link in soup.findAll('a', {'class': 'movie-link'})]
@ -34,4 +34,4 @@ def getRottenTomatoes(rating = 70):
  
    offset += 10
  return movies
-  
+  
--- a/scrapeit/thepiratebay.py
+++ b/scrapeit/thepiratebay.py
@ -5,10 +5,12 @@
 import re
 import socket
 from urllib import quote
+from urllib2 import URLError

 from BeautifulSoup import BeautifulSoup
+import feedparser

-from btutils import torrentsWeLike
+from btutils import torrentsWeLike, filterMovies
 from google import google
 from utils import read_url, read_url_utf8

@ -116,3 +118,40 @@ def search(query, filterResult = False):
  
 def searchByImdb(imdb):
  return search("tt" + imdb)
+
+def getId(pid):
+  if pid.startswith('http://torrents.thepiratebay.org/'):
+    pid = pid.split('org/')[1]
+  if 'tor/' in pid:
+    pid = pid.split('tor/')[1]
+  return pid
+
+def getInfo(piratebayID):
+  piratebayID = getId(piratebayID)
+  url = 'http://thepiratebay.org/tor/%s' % piratebayID
+  try:
+    txt = read_url(url).decode('utf-8', 'replace')
+  except URLError, e:
+    if e.code == 404:
+      return None
+  title = re.compile('<title>(.*?) \(download torrent\) - TPB</title>').findall(txt)[0]
+  movie = dict(
+    title=title,
+    txt=txt,
+    comment_link=url,
+    torrent_link="http://torrents.thepiratebay.org/%s/%s.torrent" % (piratebayID, title)
+  )
+  return filterMovies([movie,])[0]
+
+def newMovies(preFilter=None):
+  url = "http://rss.thepiratebay.org/201"
+  page = read_url(url)
+  fd = feedparser.parse(page)
+  movies = []
+  for entry in fd.entries:
+    if not preFilter or preFilter(entry):
+      movie = getInfo(entry.comments)
+      movies.append(movie)
+  movies = filterMovies(movies)
+  return movies
+