Białka, jak już zapewne wiesz, zbudowane są z aminokwasów (istnieje 20 podstawowych + kilka dodatkowych ale nimi się zajmować nie będziemy). Każde białko ma inną sekwencję aminokwasową ale niektóre są do siebie podobne. Można powiedzieć (uogólniając), że takie podobne do siebie białka należą do jednej rodziny.
Każdy aminokwas ma swoje właściwości takie jak ładunek (dodatni, obojętny lub ujemny), polarność itd.. Dość istotnym parametrem jest hydrofobowość (hydro - woda, phobos - strach). Jeśli aminokwas jest hydrofobowy to "stara się" unikać wody. Najczęściej tego typu aminokwasy występują wewnątrz struktury białek osłonięte innymi aminokwasami które są hydrofilowe (lubiące wodę).
Jako, że rodziny białkowe wykazują wewnątrz grupy podobieństwa w tym zadaniu postaramy się zbadać czy pewna rodzina białek ma podobny stosunek proporcji aminokwasów hydrofobowych do hydrofilowych.
Będziemy zajmować się nieprzypadkową rodziną - kinezynami. Ta grupa białek odpowiada za np. przenoszenie w komórce pęcherzyków z różnymi substancjami w różne miejsca. Podróżują one po szkielecie wewnątrz komórki (mikrotubulach).
<tu wstaw grafikę z posta wyżej>
Najprostszym sposobem znalezienia tej rodziny białek w internecie będzie po prostu wpisanie w Google zapytania
Kinesin
(przy okazji wyszukiwania w Google zwróć uwagę na znalezione filmy)
Pierwszy odnośnik powinien prowadzić do anglojęzycznej strony Wikipedii na której znajduje się link do bazy
Pfam w której można odnaleźć cały zbiór białek z tej rodziny (prawie 10 tysięcy sekwencji).
Na stronie można znaleźć sekwencje białek i pobrać je w pasującym Ci formacie <odnośnik do formatów>.
Możesz pobrać sekwencje bez wstawionych przerw, plik będzie mniejszy a jego interpretacja może okazać się łatwiejsza. Polecamy format FASTA (format Selex też nie będzie zły).
Wystarczy, że zbadasz "Seed", nie musisz pobierać wszystkich sekwencji.
Napisz program który policzy odchylenie standardowe dla proporcji hydrofobowe/hydrofilowe.
Zastanów się na podstawie grafik/filmów znalezionych przy okazji szukania rodziny czemu stosunek jest w ten sposób odchylony od równej proporcji.
kod do zadania:
lista=[]
fobo=['A','F','I','L','M','V','W','Y']
with open('seq.txt','r') as seq:
licznik=-1
for linia in seq:
licznik+=1
linia=linia.strip().split()
ile=0.0
for aminokwas in linia[1]:
if aminokwas in fobo:
ile+=1
lista.append(ile/len(linia[1]))
avg=sum(lista)/len(lista)
o=0
for wynik in lista:
o+=(wynik-avg)**2
o=(o/len(lista))**0.5
średnia: 0.3658551607512851
odchylenie standardowe: 0.018403790736100538
więc jest tak jak się spodziewałem

jeszcze można pokusić się o kodony albo dorzucić jakiś wykres ale tego nie sprawdzimy
możemy też dać jakąś bardziej hydrofobową rodzinę lub w ogóle więcej rodzin do przebadania bo jak dla mnie zajmuje to jakieś 20 minut max całość.
dla całej rodziny jest to odpowiednio, więc na seed tym lepiej wychodzi przynajmniej odchylenie:
0.35712537566332536
0.03230739553282199