Έχω ένα πρόβλημα, στο οποίο οι γνώσεις μου περί βάσεων δεδομένων είναι μάλλον ανεπαρκείς.
Έχω μια πολύ μεγάλη βάση δεδομένων με tweets και θέλω να βρω ποιες είναι οι 10 πιο συχνές
λέξεις που ξεκινούν με hashtag. Σαν συμβουλή, ο καθηγητής μας είπε ότι μπορούμε να χρησιμοποιήσουμε
regular expressions και επίσης MapReduce αν ξέρουμε να το χρησιμοποιούμε, οπότε το ξεχνάω.
Καμιά ιδέα για το πως θα μπορούσα να ξεκινήσω;
- - - Updated - - -
Μιας και βλέπω ότι δεν απαντάει κανένας, ας γράψω τι σκέφτομαι και τι έχω κάνει ως τώρα, μήπως γίνει πιο κατανοητό.
Χρησιμοπιώντας την regular expression #[\\w]+ έχω απομονώσει τα tweets που έχουν μία ή περισσότερες λέξεις που
ξεκινάν με hashtag και θέλω τώρα να βάλω όλες τις λέξεις σε μια καινούρια στήλη για να μπορέσω να τις κατατάξω.
Εμφάνιση 1-5 από 5
-
06-10-12, 17:44 Εξαγωγή πιο συχνά χρησιμοποιούμενης λέξης σε SQL #1
-
10-10-12, 20:46 Απάντηση: Εξαγωγή πιο συχνά χρησιμοποιούμενης λέξης σε SQL #2
Ίσως θα μπορούσες να δοκιμάσεις κάτι σαν αυτό
SELECT tweet FROM
(
SELECT tweet, count(*) as TOTAL
FROM tweets_table
WHERE tweet LIKE '% #%'
GROUP BY tweet
ORDER BY TOTAL) as Temp
LIMIT 10
Δεν υπόσχομαι ότι θα δουλέψει μιας και έχω να πιάσω καιρό sql αλλά αν έδινες και την δομή των tables
θα βοηθούσε πιο πολύ κάποιον για να σου δώσει μια πιο σωστή απάντηση. Υπέθεσα ότι τα tweets βρίσκονται μέσα στον πίνακα
με όνομα tweets_table.Τελευταία επεξεργασία από το μέλος xcyanx : 10-10-12 στις 21:07.
-
12-10-12, 13:40 Απάντηση: Εξαγωγή πιο συχνά χρησιμοποιούμενης λέξης σε SQL #3
Καλημέρα, η μορφή των tweets που ψάχνουμε είναι ότι σε κάθε κελί του πίνακα υπάρχει σκέτο ένα hashtag και λέξη ή ολόκληρη πρόταση που κάπου περιέχει και μια λέξη με hashtag ή και παραπάνω ή και καμία;
PHP script μπορούμε να χρησιμοποιήσουμε;
-
12-10-12, 14:02 Απάντηση: Εξαγωγή πιο συχνά χρησιμοποιούμενης λέξης σε SQL #4
Αν είναι έτσι όπως το λες τότε φαντάζομαι το sql ερώτημα που έδωσα ότι θα πρέπει να δουλεύει...
Το έτρεξα σε μία άλλη βάση που έφτιαξα για να το testarw και δούλεψε.
-
14-10-12, 11:06 Απάντηση: Εξαγωγή πιο συχνά χρησιμοποιούμενης λέξης σε SQL #5
Αν ήταν έτσι θα ήταν εύκολο ακόμα και για μένα, που έχω χάσει την επαφή με SQL. Τα tweets είναι σε ένα πίνακα με πολλές στήλες, από τις οποίες εμάς μας ενδιαφέρει μόνο η content, που είναι δηλαδή το κείμενο. Μια φίλη μου με βοήθησε τελικά και μου πρότεινε το εξής το οποίο δουλεύει σωστά
Κώδικας:Select substring_index(substring_index(content,'#',-1), ' ',1) as hashtag
Παρόμοια Θέματα
-
διαγραφή λέξης
Από leon_23 στο φόρουμ Προγραμματισμός και γλώσσες προγραμματισμούΜηνύματα: 2Τελευταίο Μήνυμα: 19-04-10, 03:09 -
Ετυμολογία της λέξης φυλής
Από YiannisM στο φόρουμ Εκτός θέματοςΜηνύματα: 11Τελευταίο Μήνυμα: 30-08-07, 16:58 -
Ξαφνικά το VIRTUAL DUB μου βγαζει πιο συχνά σφάλμα VBR!
Από johnalepou στο φόρουμ Audio, Video και ΦωτογραφίαΜηνύματα: 13Τελευταίο Μήνυμα: 14-02-07, 18:10 -
Εκτυπωση αναποδης λεξης..
Από cflour στο φόρουμ WindowsΜηνύματα: 34Τελευταίο Μήνυμα: 01-08-06, 15:25
Bookmarks