# -*- coding: utf-8 -*- # vi:si:et:sw=4:sts=4:ts=4 import re import time from oxlib import stripTags, findRe from oxlib.cache import getUrlUnicode def getMovieData(allmovieId): html = getUrlUnicode("http://www.allmovie.com/cg/avg.dll?p=avg&sql=1:%s~T0" % allmovieId) data = {} data['poster'] = findRe(html, '

.*?

(.*?)')) data['year'] = findRe(html, '(\d{4})') data['rating'] = findRe(html, '" alt="(\d+?) Stars"') data['country'] = findRe(html, '(.*?)(.*?)')).split(', ') data['genre'] = map(lambda x: stripTags(x), findRe(html, 'Genre / Type(.*?)').split('

')) data['keywords'] = map(lambda x: stripTags(x), findRe(html, 'Keywords(.*?)').split('

')) data['themes'] = map(lambda x: stripTags(x), findRe(html, 'Themes(.*?)').split('

')) html = getUrlUnicode("http://www.allmovie.com/cg/avg.dll?p=avg&sql=1:%s~T1" % allmovieId) data['review'] = stripTags(findRe(html, 'Review.*?

(.*?)')) return data def getMoviePoster(allmovieId): data = getMovieData(allmovieId) if data: return data['poster'] return '' if __name__ == '__main__': print getMovieData('177524')