Spaces:

mv63
/

TheScopeBackend

Sleeping

App Files Files Community

Vedant Jigarbhai Mehta commited on Apr 9

Commit

aaf9ca5

1 Parent(s): aed5d76

fix search count, cluster data, and network filter

Browse files

Files changed (6) hide show

backend/routes/clusters.py +33 -12
backend/routes/network.py +29 -16
backend/routes/search.py +1 -1
frontend/src/pages/Clusters.jsx +13 -1
frontend/src/pages/Network.jsx +2 -2
frontend/src/services/api.js +2 -2

backend/routes/clusters.py CHANGED Viewed

@@ -93,7 +93,7 @@ def get_clusters():
     # Get texts for labeling
     texts = [r[0] for r in conn.execute("SELECT combined_text FROM posts ORDER BY rowid").fetchall()]
-    # Generate labels
     clusters = {}
     for i in range(k):
         cluster_texts = [t for t, l in zip(texts, labels) if l == i]
@@ -111,26 +111,47 @@ def get_clusters():
                 label = f"Cluster {i}"
         cluster_post_ids = [post_ids[j] for j in range(len(labels)) if labels[j] == i]
-        pids_sample = cluster_post_ids[:10]
-        placeholders = ','.join(['?' for _ in pids_sample])
-        top = conn.execute(f"""
-            SELECT id, title, subreddit, score FROM posts
-            WHERE id IN ({placeholders})
-            ORDER BY score DESC LIMIT 5
-        """, pids_sample).fetchall()
-        clusters[i] = {
             'id': i,
             'label': label,
             'size': len(cluster_post_ids),
-            'top_posts': [{'id': t[0], 'title': t[1], 'subreddit': t[2], 'score': t[3]} for t in top]
         }
     conn.close()
     result = {
-        'clusters': list(clusters.values()),
         'k': k,
     }
     if was_clamped:
         result['warning'] = f'Requested k={original_k} was clamped to {k} (valid range: {MIN_K}-{MAX_K})'

     # Get texts for labeling
     texts = [r[0] for r in conn.execute("SELECT combined_text FROM posts ORDER BY rowid").fetchall()]
+    # Generate labels and gather full per-cluster data
     clusters = {}
     for i in range(k):
         cluster_texts = [t for t, l in zip(texts, labels) if l == i]
                 label = f"Cluster {i}"
         cluster_post_ids = [post_ids[j] for j in range(len(labels)) if labels[j] == i]
+        cluster_data = {
             'id': i,
             'label': label,
             'size': len(cluster_post_ids),
+            'top_posts': [],
+            'subreddits': [],
         }
+        # Top 10 posts by score and subreddit breakdown
+        if cluster_post_ids:
+            placeholders = ','.join(['?' for _ in cluster_post_ids])
+            top = conn.execute(f"""
+                SELECT id, title, subreddit, score, author, permalink, created_date FROM posts
+                WHERE id IN ({placeholders})
+                ORDER BY score DESC LIMIT 10
+            """, cluster_post_ids).fetchall()
+            cluster_data['top_posts'] = [
+                {'id': t[0], 'title': t[1], 'subreddit': t[2], 'score': t[3],
+                 'author': t[4], 'permalink': t[5], 'date': t[6]} for t in top
+            ]
+            sub_counts = conn.execute(f"""
+                SELECT subreddit, COUNT(*) as count FROM posts
+                WHERE id IN ({placeholders}) GROUP BY subreddit ORDER BY count DESC
+            """, cluster_post_ids).fetchall()
+            cluster_data['subreddits'] = [{'name': s[0], 'count': s[1]} for s in sub_counts]
+        clusters[i] = cluster_data
     conn.close()
+    cluster_list = list(clusters.values())
+    from services.llm_service import generate_cluster_summary
+    summary = generate_cluster_summary(cluster_list, k)
     result = {
+        'clusters': cluster_list,
         'k': k,
+        'summary': summary,
     }
     if was_clamped:
         result['warning'] = f'Requested k={original_k} was clamped to {k} (valid range: {MIN_K}-{MAX_K})'

backend/routes/network.py CHANGED Viewed

@@ -42,16 +42,20 @@ def get_graph():
     nodes_to_keep = [n for n in G.nodes() if G.degree(n) >= min_degree]
     subgraph = G.subgraph(nodes_to_keep).copy()
     edge_key = 'links'
     result = {
         'nodes': [{'id': n, **subgraph.nodes[n]} for n in subgraph.nodes()],
         edge_key: [{'source': u, 'target': v, **d} for u, v, d in subgraph.edges(data=True)],
-        'stats': {
-            'num_nodes': subgraph.number_of_nodes(),
-            'num_edges': subgraph.number_of_edges(),
-            'num_components': nx.number_connected_components(subgraph),
-            'density': round(nx.density(subgraph), 6) if subgraph.number_of_nodes() > 1 else 0
-        }
     }
     return jsonify(result)
@@ -59,26 +63,35 @@ def get_graph():
 @network_bp.route('/remove-node/<author>')
 def remove_node(author):
     graph_data = current_app.config['graph_data']
-    G = graph_from_data(graph_data)
-    if author not in G:
         return jsonify({
             'error': True,
             'message': f'Author "{author}" not found in the network.'
         }), 404
-    # Stats before removal
     components_before = nx.number_connected_components(G)
     nodes_before = G.number_of_nodes()
     edges_before = G.number_of_edges()
-    # Find which component the author belongs to
-    for comp in nx.connected_components(G):
-        if author in comp:
-            original_component_size = len(comp)
-            break
     # Remove the node
     removed_degree = G.degree(author)
     removed_pagerank = G.nodes[author].get('pagerank', 0)
@@ -105,7 +118,7 @@ def remove_node(author):
             f"Components: {components_after}. {edges_before - edges_after} edges removed."
         )
-    # Return updated graph
     edge_key = 'links'
     result = {
         'nodes': [{'id': n, **G.nodes[n]} for n in G.nodes()],

     nodes_to_keep = [n for n in G.nodes() if G.degree(n) >= min_degree]
     subgraph = G.subgraph(nodes_to_keep).copy()
+    from services.llm_service import generate_network_summary
     edge_key = 'links'
+    filtered_stats = {
+        'num_nodes': subgraph.number_of_nodes(),
+        'num_edges': subgraph.number_of_edges(),
+        'num_components': nx.number_connected_components(subgraph),
+        'density': round(nx.density(subgraph), 6) if subgraph.number_of_nodes() > 1 else 0
+    }
     result = {
         'nodes': [{'id': n, **subgraph.nodes[n]} for n in subgraph.nodes()],
         edge_key: [{'source': u, 'target': v, **d} for u, v, d in subgraph.edges(data=True)],
+        'stats': filtered_stats,
+        'summary': generate_network_summary(filtered_stats),
     }
     return jsonify(result)
 @network_bp.route('/remove-node/<author>')
 def remove_node(author):
+    min_degree = request.args.get('min_degree', 1, type=int)
     graph_data = current_app.config['graph_data']
+    G_full = graph_from_data(graph_data)
+    if author not in G_full:
         return jsonify({
             'error': True,
             'message': f'Author "{author}" not found in the network.'
         }), 404
+    # Apply the same min_degree filter the graph view is using
+    if min_degree > 1:
+        nodes_to_keep = [n for n in G_full.nodes() if G_full.degree(n) >= min_degree]
+        G = G_full.subgraph(nodes_to_keep).copy()
+    else:
+        G = G_full.copy()
+    # If the author was filtered out by min_degree, they're not in the visible graph
+    if author not in G:
+        return jsonify({
+            'error': True,
+            'message': f'Author "{author}" is not visible at min degree {min_degree}.'
+        }), 404
+    # Stats before removal (within the filtered graph)
     components_before = nx.number_connected_components(G)
     nodes_before = G.number_of_nodes()
     edges_before = G.number_of_edges()
     # Remove the node
     removed_degree = G.degree(author)
     removed_pagerank = G.nodes[author].get('pagerank', 0)
             f"Components: {components_after}. {edges_before - edges_after} edges removed."
         )
+    # Return updated graph (respecting min_degree filter)
     edge_key = 'links'
     result = {
         'nodes': [{'id': n, **G.nodes[n]} for n in G.nodes()],

backend/routes/search.py CHANGED Viewed

@@ -23,7 +23,7 @@ def detect_language(text):
 def search():
     data = request.get_json() or {}
     query = data.get('message', '').strip()
-    limit = data.get('limit', 20)
     # Edge case: conversational/greeting queries
     greetings = [

 def search():
     data = request.get_json() or {}
     query = data.get('message', '').strip()
+    limit = data.get('limit', 10)
     # Edge case: conversational/greeting queries
     greetings = [

frontend/src/pages/Clusters.jsx CHANGED Viewed

@@ -20,6 +20,9 @@ const SUBREDDIT_COLORS = {
   neoliberal: '#6366f1', worldpolitics: '#14b8a6', Conservative: '#f97316', Republican: '#ea580c'
 }
 export default function Clusters() {
   const [k, setK] = useState(8)
   const [debouncedK, setDebouncedK] = useState(8)
@@ -71,11 +74,20 @@ export default function Clusters() {
             onChange={e => setK(Number(e.target.value))}
             className="flex-1 max-w-xs" />
           <span className="text-2xl font-bold text-indigo-600 w-12 text-center">{k}</span>
         </div>
         {warning && <p className="text-sm text-amber-600 mt-2">{warning}</p>}
         <div className="flex items-center justify-between mt-3">
           <p className="text-xs text-gray-400">
-            {clusters.length} clusters · {totalPosts.toLocaleString()} posts · KMeans on 384-dim embeddings
           </p>
           <Link to="/dashboard/embeddings" className="text-xs text-indigo-600 hover:text-indigo-800 font-medium">
             Explore full embedding map →

   neoliberal: '#6366f1', worldpolitics: '#14b8a6', Conservative: '#f97316', Republican: '#ea580c'
 }
+// Pre-computed k values load instantly from SQLite; other k values are computed on the fly
+const PRECOMPUTED_K = new Set([3, 5, 8, 10, 15, 20, 30, 50])
 export default function Clusters() {
   const [k, setK] = useState(8)
   const [debouncedK, setDebouncedK] = useState(8)
             onChange={e => setK(Number(e.target.value))}
             className="flex-1 max-w-xs" />
           <span className="text-2xl font-bold text-indigo-600 w-12 text-center">{k}</span>
+          {PRECOMPUTED_K.has(k) ? (
+            <span className="text-[10px] font-medium text-emerald-700 bg-emerald-50 border border-emerald-200 px-2 py-0.5 rounded-full">
+              Instant · pre-computed
+            </span>
+          ) : (
+            <span className="text-[10px] font-medium text-amber-700 bg-amber-50 border border-amber-200 px-2 py-0.5 rounded-full">
+              Computed on-the-fly
+            </span>
+          )}
         </div>
         {warning && <p className="text-sm text-amber-600 mt-2">{warning}</p>}
         <div className="flex items-center justify-between mt-3">
           <p className="text-xs text-gray-400">
+            {clusters.length} clusters · {totalPosts.toLocaleString()} posts · KMeans on 384-dim embeddings · Instant for k ∈ {'{'}3, 5, 8, 10, 15, 20, 30, 50{'}'}
           </p>
           <Link to="/dashboard/embeddings" className="text-xs text-indigo-600 hover:text-indigo-800 font-medium">
             Explore full embedding map →

frontend/src/pages/Network.jsx CHANGED Viewed

@@ -13,7 +13,7 @@ const COMMUNITY_COLORS = [
 export default function Network() {
   const [graphData, setGraphData] = useState(null)
   const [stats, setStats] = useState(null)
-  const [minDegree, setMinDegree] = useState(2)
   const [selectedNode, setSelectedNode] = useState(null)
   const [removalImpact, setRemovalImpact] = useState(null)
   const [loading, setLoading] = useState(true)
@@ -95,7 +95,7 @@ export default function Network() {
     if (!selectedNode) return
     setRemoving(true)
     try {
-      const res = await removeNetworkNode(selectedNode.id)
       setRemovalImpact(res.data)
     } catch (err) {
       console.error(err)

 export default function Network() {
   const [graphData, setGraphData] = useState(null)
   const [stats, setStats] = useState(null)
+  const [minDegree, setMinDegree] = useState(1)
   const [selectedNode, setSelectedNode] = useState(null)
   const [removalImpact, setRemovalImpact] = useState(null)
   const [loading, setLoading] = useState(true)
     if (!selectedNode) return
     setRemoving(true)
     try {
+      const res = await removeNetworkNode(selectedNode.id, { min_degree: minDegree })
       setRemovalImpact(res.data)
     } catch (err) {
       console.error(err)

frontend/src/services/api.js CHANGED Viewed

@@ -32,8 +32,8 @@ export const searchTimeSeries = (data) =>
 export const getNetworkGraph = (params) =>
   api.get('/network/graph', { params })
-export const removeNetworkNode = (author) =>
-  api.get(`/network/remove-node/${encodeURIComponent(author)}`)
 // Clusters
 export const getClusters = (params) =>

 export const getNetworkGraph = (params) =>
   api.get('/network/graph', { params })
+export const removeNetworkNode = (author, params = {}) =>
+  api.get(`/network/remove-node/${encodeURIComponent(author)}`, { params })
 // Clusters
 export const getClusters = (params) =>