Remove test dependence on scipy

theospears · theospears · commit cb7102796137 · 2013-07-08T16:45:08.000+01:00
Instead we hardcode the correct answers
diff --git a/experiments/tests/mannwhitney.py b/experiments/tests/mannwhitney.py
@@ -1,39 +1,32 @@
 from django.utils.unittest import TestCase
 
-from scipy.stats import mannwhitneyu as scipy_mann_whitney
 from experiments.significance import mann_whitney
 
+# The hardcoded p and u values in these tests were calculated using scipy
 class MannWhitneyTestCase(TestCase):
-    def frequencies_to_list(self, frequencies):
-        entries = []
-        for entry,count in frequencies.items():
-            entries.extend([entry] * count)
-        return entries
+    longMessage = True
 
     def test_empty_sets(self):
         mann_whitney(dict(), dict())
 
     def test_identical_ranges(self):
-        distribution = dict((x,1) for x in range(50))
-        self.assertMatchesSciPy(distribution, distribution)
+        distribution = dict((x, 1) for x in range(50))
+        self.assertUandPCorrect(distribution, distribution, 1250.0, 0.49862467827855483)
 
     def test_many_repeated_values(self):
-        self.assertMatchesSciPy({0: 100, 1: 50}, {0: 110, 1: 60})
+        self.assertUandPCorrect({0: 100, 1: 50}, {0: 110, 1: 60}, 12500.0, 0.35672951675909859)
 
     def test_large_range(self):
-        distribution_a = dict((x,1) for x in range(10000))
-        distribution_b = dict((x+1,1) for x in range(10000))
-        self.assertMatchesSciPy(distribution_a, distribution_b)
+        distribution_a = dict((x, 1) for x in range(10000))
+        distribution_b = dict((x+1, 1) for x in range(10000))
+        self.assertUandPCorrect(distribution_a, distribution_b, 49990000.5, 0.49023014794874586)
 
     def test_very_different_sizes(self):
-        distribution_a = dict((x,1) for x in range(10000))
-        distribution_b = dict((x,1) for x in range(20))
-        self.assertMatchesSciPy(distribution_a, distribution_b)
+        distribution_a = dict((x, 1) for x in range(10000))
+        distribution_b = dict((x, 1) for x in range(20))
+        self.assertUandPCorrect(distribution_a, distribution_b, 200.0, 0)
 
-    def assertMatchesSciPy(self, distribution_a, distribution_b):
+    def assertUandPCorrect(self, distribution_a, distribution_b, u, p):
         our_u, our_p = mann_whitney(distribution_a, distribution_b)
-        correct_u, correct_p = scipy_mann_whitney(
-            self.frequencies_to_list(distribution_a),
-            self.frequencies_to_list(distribution_b))
-        self.assertEqual(our_u, correct_u, "U score incorrect")
-        self.assertAlmostEqual(our_p, correct_p, msg="p value incorrect")
+        self.assertEqual(our_u, u, "U score incorrect")
+        self.assertAlmostEqual(our_p, p, msg="p value incorrect")
diff --git a/setup.py b/setup.py
@@ -45,5 +45,4 @@ def parse_dependency_links(file_name):
       dependency_links = parse_dependency_links('requirements.txt'),
       long_description=open('README.rst').read(),
       test_suite="tests.runtests",
-      tests_require=["scipy"],
 )

Original file line number	Diff line number	Diff line change
`@@ -45,5 +45,4 @@ def parse_dependency_links(file_name):`
`45`	`45`	`dependency_links = parse_dependency_links('requirements.txt'),`
`46`	`46`	`long_description=open('README.rst').read(),`
`47`	`47`	`test_suite="tests.runtests",`
`48`		`- tests_require=["scipy"],`
`49`	`48`	`)`