D>N-граммы? С ними тоже возникает проблема: должны быть общие участки размером в N-грамму, если общие участки нужного размера не попадаются, будут пропускаються правильные варианты совпадений, это очень не желательно.
можно пределиться каков минимальный размер совпадений, исходя из размеров словаря и использовать его в качестве размера N-граммы. В твоем случае 50 для базовых строк, 150 для запроса, врядли имеет смысл брать меньше, чем 10-граммы.